MDL-53508 search: Improve highlighting and move to text fields
[moodle.git] / search / engine / solr / classes / document.php
1 <?php
2 // This file is part of Moodle - http://moodle.org/
3 //
4 // Moodle is free software: you can redistribute it and/or modify
5 // it under the terms of the GNU General Public License as published by
6 // the Free Software Foundation, either version 3 of the License, or
7 // (at your option) any later version.
8 //
9 // Moodle is distributed in the hope that it will be useful,
10 // but WITHOUT ANY WARRANTY; without even the implied warranty of
11 // MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12 // GNU General Public License for more details.
13 //
14 // You should have received a copy of the GNU General Public License
15 // along with Moodle.  If not, see <http://www.gnu.org/licenses/>.
17 /**
18  * Document representation.
19  *
20  * @package    search_solr
21  * @copyright  2015 David Monllao {@link http://www.davidmonllao.com}
22  * @license    http://www.gnu.org/copyleft/gpl.html GNU GPL v3 or later
23  */
25 namespace search_solr;
27 defined('MOODLE_INTERNAL') || die();
29 /**
30  * Respresents a document to index.
31  *
32  * @copyright  2015 David Monllao {@link http://www.davidmonllao.com}
33  * @license    http://www.gnu.org/copyleft/gpl.html GNU GPL v3 or later
34  */
35 class document extends \core_search\document {
37     /**
38      * Formats the timestamp according to the search engine needs.
39      *
40      * @param int $timestamp
41      * @return string
42      */
43     public static function format_time_for_engine($timestamp) {
44         return gmdate(\search_solr\engine::DATE_FORMAT, $timestamp);
45     }
47     /**
48      * Formats the timestamp according to the search engine needs.
49      *
50      * @param int $timestamp
51      * @return string
52      */
53     public static function format_string_for_engine($string) {
54         // 2^15 default. We could convert this to a setting as is possible to
55         // change the max in solr.
56         return \core_text::str_max_bytes($string, 32766);
57     }
59     /**
60      * Returns a timestamp from the value stored in the search engine.
61      *
62      * @param string $time
63      * @return int
64      */
65     public static function import_time_from_engine($time) {
66         return strtotime($time);
67     }
69     /**
70      * Overwritten to use markdown format as we use markdown for solr highlighting.
71      *
72      * @return int
73      */
74     protected function get_text_format() {
75         return FORMAT_HTML;
76     }
78     /**
79      * Formats a text string coming from the search engine.
80      *
81      * @param  string $text Text to format
82      * @return string HTML text to be renderer
83      */
84     protected function format_text($text) {
85         // Since we allow output for highlighting, we need to encode html entities.
86         // This ensures plaintext html chars don't become valid html.
87         $out = s($text);
89         $startcount = 0;
90         $endcount = 0;
92         // Remove end/start pairs that span a few common seperation characters. Allows us to highlight phrases instead of words.
93         $regex = '|'.engine::HIGHLIGHT_END.'([ .,-]{0,3})'.engine::HIGHLIGHT_START.'|';
94         $out = preg_replace($regex, '$1', $out);
96         // Now replace our start and end highlight markers.
97         $out = str_replace(engine::HIGHLIGHT_START, '<span class="highlight">', $out, $startcount);
98         $out = str_replace(engine::HIGHLIGHT_END, '</span>', $out, $endcount);
100         // This makes sure any highlight tags are balanced, incase truncation or the highlight text contained our markers.
101         while ($startcount > $endcount) {
102             $out .= '</span>';
103             $endcount++;
104         }
105         while ($startcount < $endcount) {
106             $out = '<span class="highlight">' . $out;
107             $endcount++;
108         }
110         return parent::format_text($out);
111     }