Ich verwende Lucene Highlighter-Klasse, um Fragmente übereinstimmender Suchergebnisse hervorzuheben, und es funktioniert gut. Ich möchte von der Suche mit dem StandardAnalyzer auf den EnglishAnalyzer umschalten, der das Stemming von Termen durchführt.Lucene Textmarker mit Stemmanalysator
Die Suchergebnisse sind gut, aber jetzt findet der Textmarker nicht immer eine Übereinstimmung. Hier ist ein Beispiel dafür, was ich suche auf:
document field text 1: Everyone likes goats.
document field text 2: I have a goat that eats everything.
die EnglishAnalyzer Verwendung und die Suche nach „Ziege“, beiden Dokumente abgestimmt sind, aber der Textmarker ist nur in der Lage ein angepaßtes Fragment finden aus dem Dokument 2. Gibt es Wie kann der Textmarker die Daten für beide Dokumente zurückgeben?
Ich verstehe, dass die Zeichen für die Token unterschiedlich sind, aber die gleichen Token sind immer noch da, so dass es sinnvoll erscheint, nur den Token zu markieren, der an dieser Stelle vorhanden ist.
Wenn es hilft, verwendet dies Lucene 3.5.