Ich muss Begriffe mit den höchsten Frequenzen aus mehreren Lucene-Indizes extrahieren, um sie für einige semantische Analyse zu verwenden.Erhalten Sie Begriffe mit höchster Häufigkeit aus Lucene Index
Also, ich möchte vielleicht Top 30 am häufigsten auftretenden Begriffe (noch nicht über den Schwellenwert entscheiden, ich werde die Ergebnisse analysieren) und ihre Per-Index zählt. Ich bin mir bewusst, dass ich aufgrund von potenziell verlorenen Duplikaten etwas an Genauigkeit verlieren könnte, aber jetzt, sagen wir, bin ich damit einverstanden.
So für die vorgeschlagenen Lösungen (unnötig vielleicht zu sagen) Geschwindigkeit ist nicht wichtig, da ich die statische Analyse tun würde, würde ich setzen Akzent auf Einfachheit der Umsetzung, weil im nicht so geschickt im Umgang mit Lucene und kann meine Gedanken wickeln um einige Konzepte davon ..
Ich kann keine Code-Beispiele von etwas Ähnlichem finden, also alle konkreten Ratschläge (Code, Pseudocode, Links zu Codebeispielen ...) Schätzen Sie alle Ratschläge!
Vielen Dank!
Danke! Genau das, was ich brauchte! – Julia
Hallo Verstand! Ich benutze Lucene 4.4, so dass es keine Terms() -Methode? Hilf mir bitte! – Thangnv
@Thangnv möchten Sie möglicherweise einen separaten Thread dafür öffnen, oder senden Sie eine E-Mail an die Lucene Java-Mailingliste. Ich habe keine Lucene 4.4 zur Hand. Und die Zeit war in diesen Tagen knapp ;-( – mindas