2017-06-17 2 views
2

Wenn TF-IDF mit Dokument A zu vergleichen, B Ich weiß, dass Länge des Dokuments ist nicht wichtig. Aber im Vergleich zu A-B, A-C in diesem Fall denke ich, die Länge des Dokuments B, C sollte die gleiche Länge haben.TF-IDF: soll ich tun Normalisierung der Dokumente Länge

zum Beispiel Log: 100 Wörter Dokument A: 20 Worte Dokument B: 30 Wörter

Log - A 's TF-IDF-Score: 0.xx Log - B' s TF-IDF-Score : 0.xx

Sollte ich Normalisierung von Dokument A, B? (Wenn das Vergleichsziel anders ist, scheint es ein Problem oder ein falsches Ergebnis zu sein)

Antwort

3

Im Allgemeinen möchten Sie alles tun, was Ihnen die besten Kreuz-validierten Ergebnisse zu Ihren Daten liefert.

Wenn alles, was Sie tun, um sie zu vergleichen, ist Kosinusähnlichkeit nehmen, dann müssen Sie die Vektoren als Teil der Berechnung zu normalisieren, aber es wird nicht beeinflussen den Score aufgrund der unterschiedlichen Dokumentlängen. Viele allgemeine Dokumentenabrufsysteme halten kürzere Dokumente für wertvoller, aber dies wird üblicherweise als ein Bewertungsfaktor behandelt, nachdem die Ähnlichkeiten berechnet wurden. Oft wird ln (TF) anstelle von rohen TF-Werten als Normalisierungsmerkmal verwendet, weil Unterschiede zwischen einem 1 und 2-maligen Ausdruck viel wichtiger sind als der Unterschied zwischen einem 100- und 200-fachen des Ausdrucks; Es verwendet auch übermäßigen Gebrauch eines Begriffs, um den Vektor zu dominieren, und ist typischerweise viel robuster.

+0

Danke für den Kommentar. und ich habe eine Frage .. Ich habe "Ngram" nur mit TF gefunden. Muss Ngram das Dokument normalisieren? Ich denke, tf-idf und Ngram haben einen ähnlichen Algorithmus. – Acool5

+0

@ Acool5 es ist der genau gleiche Algorithmus, der einzige Unterschied ist die Menge der Begriffe gehen in wird in der Regel bei der Verwendung von Ngrams erhöht. –

Verwandte Themen