2017-02-02 4 views
1

Was ist der Unterschied zwischen TF-IDF Ranking von Dokumenten und binäre Unabhängigkeitsmodell des Rankings? Ich kann sie nicht unterscheiden.Information Retrieval System

Ich denke, praktische Umsetzung der binären Unabhängigkeitsmodell führt zu TF-IDF haben. Bitte hilf mir, wenn ich falsch liege.

+0

Sie haben Recht ... tf-idf ist ad-hoc ... die probabilistische Analyse stellt fest, warum eine Funktion wie tf-idf gut funktionieren sollte ... – Debasis

Antwort

2

Der Hauptunterschied besteht darin, dass im Binary Independence Model keine Ahnung davon ist, wie wichtig ein Wort ist und alle Wörter gleich behandelt werden. Aber die Gewichtung von Wörtern mit TF-IDF wird Wörtern, die mehr in einem Dokument verwendet werden und weniger Dokumenthäufigkeit haben, bessere Noten geben.

2

Sie haben Recht. Die Binary Independence Model Annahme ist, dass Dokumente binäre Vektoren sind. Das heißt, nur die Anwesenheit oder Abwesenheit von Begriffen in Dokumenten wird aufgezeichnet. Auf der anderen Seite werden Dokumente gemäß Vector Space Model durch einen Vektor von Termgewichten dargestellt, und TF-IDF ist nur eine Möglichkeit, die Termgewichte darzustellen.