0

Ich habe versucht, TF-IDF für beide Abfrage und Dokumente zu berechnen, und mit COS Abstand, um das Ergebnis Rang und erhalten die Top50 ähnliche Dokumente. In ähnlicher Weise berechne ich den BM25-Score und rangiere den höchsten BM25-Score als Nr.1, und erhalte die Top50 ähnlichen Dokumente.So verbessern Abfrage und Dokument Ähnlichkeit messen Python TFIDF, BM25 Präzision, Rückruf

Allerdings sind die Ergebnisse für TF-IDF und BM25 nicht gut.

(der Datensatz ist Etikettengröße des Testdatensatzes 1400-Dokument.):

For example in the testing dataset judgment 

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt 

....................... ...............

nach Eingabe der QueryID = 1 im Suchsystem ich erstelle. Es hat 365 Dokumente aus insgesamt 1400 Dokumenten abgerufen.

So habe ich die IT-IDF für AbfrageID Ranking = 1, 365 Dokumente

the system might only return the relevant document ID: 38.txt 

ähnlich, benutzte ich BM25 für AbfrageID Ranking = 1, 365 Dokumente

the system might only return the relevant document ID: 19.txt 

Durch die 365 Überprüfung Dokumente manuell, in den 365 Dokumenten: es besteht tatsächlich die relevante Dokument-ID: 19.txt, 25.txt, 35.txt, 38.txt, 45.txt und die andere nicht relevante Dokument-ID.

Aufgrund des schlechten Ähnlichkeitsmaßes beeinflusst die Genauigkeit und den Abruf. Kann ich wissen, wie man die Präzision, den Rückruf oder die Ranking-Methode verbessern kann ???

Antwort

0

Ich denke, Sie sollten einen Schritt nach vorne machen und Sprachmodelle für den Abruf von Informationen verwenden. Verwenden Sie diese Tutorial from Stanford University.

+1

Erarbeiten Sie Ihre Antwort, obwohl Sie auf ein gutes Tutorial zeigen, Sie können ein paar einführende Ideen geben und sagen, warum Sprachmodelle besser für die Aufgabe von OP sind. Andernfalls können Sie dies als Kommentar schreiben. –

Verwandte Themen