Verwenden Sie TermDocs
, um die Termhäufigkeit für ein bestimmtes Dokument zu erhalten. Wie die Dokumenthäufigkeit erhalten Sie den Begriff Dokumente aus einer unter Verwendung des Begriffs von Interesse.
Sie werden keine schnellere Methode als TermDocs
ohne eine gewisse Allgemeingültigkeit zu verlieren finden. TermDocs
liest direkt aus der ".frq" -Datei in einem Indexsegment, in dem jede Termhäufigkeit in der Reihenfolge der Dokumente aufgeführt ist.
Wenn das "zu langsam" ist, stellen Sie sicher, dass Sie Ihren Index optimiert haben, um mehrere Segmente zu einem einzigen Segment zusammenzuführen. Iterieren Sie die Dokumente der Reihe nach (Überspringungen sind in Ordnung, aber Sie können nicht effizient in der Dokumentenliste hin und her springen).
Der nächste Schritt könnte eine zusätzliche Verarbeitung sein, um eine noch speziellere Dateistruktur zu schaffen, die die SkipData
auslässt. Persönlich würde ich nach einem besseren Algorithmus suchen, um mein Ziel zu erreichen, oder bessere Hardware — viel Speicher zur Verfügung zu stellen, entweder um eine RAMDirectory
zu halten, oder dem Betriebssystem für die Verwendung auf einem eigenen Datei-Caching-System zu geben.
Kann dieser Ansatz verwendet werden, um Termhäufigkeiten zu bestimmen, ist eine Ergebnismenge einer Lucene-Abfrage? –
ist es möglich, termDocs zu verwenden, um die PhraseFrequency zu erhalten? – Dany