Apache Solr Such Teil des Wortes

Ich bin mit Apache Solr Suchmaschine für meine Website Datenbank Indizierung ..Apache Solr Such Teil des Wortes

Ich bin mit django + http://haystacksearch.org/

Also lassen Sie uns sagen, dass ich Dokument haben, das Wort „Chicken haben "

Als ich nach‚chicken‘- solr kann dieses Dokument findet

Aber wenn ich suche‚Küken‘- es hat nichts finden ..

Gibt es eine Möglichkeit, das zu beheben?

Quelle

2009-12-29 Pydev UA

Hinweis: Die folgende Lösung ist Solr 1.4 (und höher) spezifisch!

Für mehr Flexibilität würde ich empfehlen, Ihre Daten mit der NGramTokenizerFactory zu indexieren, um die Platzhalter-Suche vor und zurück zu vervollständigen. Wenn Sie nur nach Teilstrings am Anfang oder Ende der Zeichenfolge suchen möchten, verwenden Sie die EdgeNGramTokenizerFactory.

Hier ist ein direkter Ersatz des Textfeldtypen, die Ihren Bedarf empfangen würden:

<fieldType name="text" class="solr.TextField" > 
<analyzer type="index"> 
    <tokenizer class="solr.NGramTokenizerFactory" minGramSize="3" maxGramSize="15" /> 
    <filter class="solr.LowerCaseFilterFactory"/> 
</analyzer> 
<analyzer type="query"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory" /> 
    <filter class="solr.LowerCaseFilterFactory"/> 
</analyzer> 
</fieldType>

Quelle

2009-12-29 18:18:32 Brian

solr 1.5 - ist diese Entwicklungsversion? (nicht freigegeben?) –

gibt es eine Lösung wie diese für 1.4? –

Guter Haken: Ich korrigierte die Antwort zu reflektieren 1.4 – Brian

Wenn du alle Wörter finden möchtest, die mit chick beginnen, suche nach chick *.

Quelle

2009-12-29 15:15:19

Ich kann \ * chick \ * nicht verwenden? ist es möglich? –

@soundar, Das ist ein ** schlechtes ** Küken;) Du kannst * vor dem Suchwort nicht haben, Lucene unterstützt das nicht. –

Ein anderer Ansatz, wenn Sie Probleme mit einer kleinen Gruppe von Worten, die sind, wäre die solr zu verwenden. SynonymFilterFactory

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.SynonymFilterFactory

Sie haben nur eine einfache Textdatei zu erhalten, die Synonyme enthält:

chick peep chicken 
dawg hound dog 
moggie puss kitten cat

Plural sollte sich mit anderen Filtern selbst versorgen.

Quelle

2010-01-30 10:05:22

Wenn ich verwendet habe,

<tokenizer class="solr.NGramTokenizerFactory" minGramSize="3" maxGramSize="15" />

zur Herstellung von Wildcard-Suche von Brians Antwort, Solr Indizierungszeit dramaticly erhöht. In mehr als 20 mal! Die andere Entscheidung des Wildcard-Suche Problem fand ich hier:

http://www.lucidimagination.com/blog/2009/09/08/auto-suggest-from-popular-queries-using-edgengrams/

Sie müssen nur Filter

<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="25" />

(Standard tokenizer - solr.WhitespaceTokenizerFactory in Indexblock von Fieldtype) hinzuzufügen. Für mich war das Ergebnis gleich mit weniger Systemkosten.

Quelle

2011-01-25 09:48:48

Ich habe keine Konfiguration geändert. Ich benutze nur Sterne vorne und hinten in meinem SearchString: * Chicke * (ohne Leerzeichen am Ende -> es ist wegen SO Formatierungswort so kursiv, wenn Sie * am Anfang und am Ende verwenden)

Quelle

2013-12-23 13:14:07 FrenkyB

Apache Solr Such Teil des Wortes

Antwort

Verwandte Themen