Initial commit
[moodle.git] / search / Zend / Search / Lucene / Analysis / Analyzer / Common / Text.php
1 <?php
2 /**
3  * Zend Framework
4  *
5  * LICENSE
6  *
7  * This source file is subject to the new BSD license that is bundled
8  * with this package in the file LICENSE.txt.
9  * It is also available through the world-wide-web at this URL:
10  * http://framework.zend.com/license/new-bsd
11  * If you did not receive a copy of the license and are unable to
12  * obtain it through the world-wide-web, please send an email
13  * to license@zend.com so we can send you a copy immediately.
14  *
15  * @category   Zend
16  * @package    Zend_Search_Lucene
17  * @subpackage Analysis
18  * @copyright  Copyright (c) 2006 Zend Technologies USA Inc. (http://www.zend.com)
19  * @license    http://framework.zend.com/license/new-bsd     New BSD License
20  */
23 /** Zend_Search_Lucene_Analysis_Analyzer_Common */
24 require_once 'Zend/Search/Lucene/Analysis/Analyzer/Common.php';
27 /**
28  * @category   Zend
29  * @package    Zend_Search_Lucene
30  * @subpackage Analysis
31  * @copyright  Copyright (c) 2006 Zend Technologies USA Inc. (http://www.zend.com)
32  * @license    http://framework.zend.com/license/new-bsd     New BSD License
33  */
35 class Zend_Search_Lucene_Analysis_Analyzer_Common_Text extends Zend_Search_Lucene_Analysis_Analyzer_Common
36 {
37     /**
38      * Tokenize text to a terms
39      * Returns array of Zend_Search_Lucene_Analysis_Token objects
40      *
41      * @param string $data
42      * @return array
43      */
44     public function tokenize($data)
45     {
46         $tokenStream = array();
48         $position = 0;
49         while ($position < strlen($data)) {
50             // skip white space
51             while ($position < strlen($data) && !ctype_alpha( $data{$position} )) {
52                 $position++;
53             }
55             $termStartPosition = $position;
57             // read token
58             while ($position < strlen($data) && ctype_alpha( $data{$position} )) {
59                 $position++;
60             }
62             // Empty token, end of stream.
63             if ($position == $termStartPosition) {
64                 break;
65             }
67             $token = new Zend_Search_Lucene_Analysis_Token(substr($data,
68                                              $termStartPosition,
69                                              $position-$termStartPosition),
70                                       $termStartPosition,
71                                       $position);
72             $tokenStream[] = $this->normalize($token);
73         }
75         return $tokenStream;
76     }
77 }