Lucene - Wildcards in Sätzen

Ich versuche derzeit, Lucene zu verwenden, um in einem Index aufgefüllte Daten zu suchen.Lucene - Wildcards in Sätzen

Ich kann auf genaue Phrasen durch Einschließen in Klammern (d. H. "Verarbeitung von Dokumenten"), aber kann nicht Lucene, um diese Phrase zu finden, indem Sie irgendeine Art von "Processing Document *".

Der offensichtliche Unterschied ist der Platzhalter am Ende.

Ich versuche derzeit, Luke zu verwenden, um den Index anzuzeigen und zu suchen. (Es fällt das Sternchen am Ende des Satzes beim Parsen)

die Anführungszeichen Hinzufügen um die Daten, die die Hauptschuld als die Suche nach Dokument zu sein scheinen, wird * arbeiten, aber „Dokument *“ nicht

Beliebig Hilfe würde sehr geschätzt

Quelle

2009-07-06 Anonymous

Fummeln mit diesem. Mögliche Problemumgehung. Gibt es eine Möglichkeit, eine Umgebungssuche mit Platzhaltern durchzuführen? Scheint so, als ob dies einen großen Leistungseinbruch verursachen könnte. –

Der QueryParser unterstützt nicht nur Platzhalter in Phrasen, PhraseQuery selbst unterstützt nur Terms. MultiPhraseQuery kommt näher, aber wie die Zusammenfassung sagt, müssen Sie noch den IndexReader.terms selbst auflisten, um den Platzhalter zu entsprechen.

Quelle

2009-07-07 04:12:05

Es scheint, dass der Standard-QueryParser dies nicht verarbeiten kann. Sie können wahrscheinlich einen benutzerdefinierten QueryParser für Platzhalter in Phrasen erstellen. Wenn Ihr Beispiel repräsentativ ist, kann stemming Ihr Problem lösen. Bitte lesen Sie die Dokumentation für PorterStemFilter, um zu sehen, ob es passt.

Quelle

2009-07-06 19:40:47

Lucene 2.9 hat ComplexPhraseQueryParser, die Platzhalter in Phrasen behandeln kann.

Quelle

2009-11-09 08:12:17

Sie suchen nach FuzzyQuery, die eine Suche nach Ergebnissen mit ähnlichen Wörtern basierend auf Levenshtein distance ermöglicht. Alternativ können Sie auch die Verwendung von slop of PhraseQuery (auch in MultiPhraseQuery) in Betracht ziehen, wenn die Reihenfolge der Wörter nicht signifikant ist.

Quelle

2009-11-09 08:23:01 Esko

Eine andere Alternative ist die Verwendung von NGrams und speziell des EdgeNGram. http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.EdgeNGramFilterFactory

Dies wird Indizes für Ngrams oder Teile von Wörtern erstellen. Dokumente, mit einer min ngram Größe von 5 und max ngram Größe von 8, würde Index: Docum Docume Dokument Dokumente

Es ist ein bisschen ein Kompromiss für Indexgröße und Zeit. Eines der Solr-Bücher zitiert als grobe Anleitung: Indizierung dauert 10 mal länger Verwendet 5 mal mehr Speicherplatz Erzeugt 6-mal mehr unterschiedliche Begriffe.

Allerdings wird das EdgeNGram besser als das tun.

Sie müssen sicherstellen, dass Sie in Ihren Abfragen kein Platzhalterzeichen eingeben. Da Sie keine Platzhaltersuche durchführen, stimmen Sie einen Suchbegriff auf Ngrams (Teile von Wörtern) ab.

Quelle

2011-02-01 02:28:19 bdargan

Ich war auch auf der Suche nach der gleichen Sache und was ich fand ist PrefixQuery gibt ua Kombination von etwas wie diese "Processing Document *". Aber die Sache ist Ihr Feld, das Sie suchen, sollte unokumentiert sein und speichern Sie es Kleinbuchstaben (Grund dafür, da es nicht erkannt wird Indexer wird nicht speichern Ihre Feldwerte in Kleinbuchstaben), damit dies funktioniert.Hier ist der Code für PrefixQuery, die für mich gearbeitet: -

List<SearchResult> results = new List<SearchResult>(); 
Lucene.Net.Store.Directory searchDir = FSDirectory.GetDirectory(this._indexLocation, false); 
IndexSearcher searcher = new IndexSearcher(searchDir); 
Hits hits; 

BooleanQuery query = new BooleanQuery(); 
query.Add(new PrefixQuery(new Term(FILE_NAME_KEY, keyWords.ToLower())), BooleanClause.Occur.MUST); 
hits = searcher.Search(query); 
this.FillResults(hits, results);

Quelle

2011-12-08 06:45:25 Deepashri

Verwenden Sie ein SpanNearQuery mit einem Slop von 0.

Leider gibt es keine SpanWildcardQuery in Lucene.Net. Entweder müssen Sie SpanMultiTermQueryWrapper verwenden, oder Sie können die java version mit wenig Aufwand in C# konvertieren.

Quelle

2012-12-15 19:34:02 Keith

Lucene - Wildcards in Sätzen

Antwort

Verwandte Themen