Wenn TF-IDF mit Dokument A zu vergleichen, B Ich weiß, dass Länge des Dokuments ist nicht wichtig. Aber im Vergleich zu A-B, A-C in diesem Fall denke ich, die Länge des Dokuments B, C sollte die gleiche Länge haben.TF-IDF: soll ich tun Normalisierung der Dokumente Länge
zum Beispiel Log: 100 Wörter Dokument A: 20 Worte Dokument B: 30 Wörter
Log - A 's TF-IDF-Score: 0.xx Log - B' s TF-IDF-Score : 0.xx
Sollte ich Normalisierung von Dokument A, B? (Wenn das Vergleichsziel anders ist, scheint es ein Problem oder ein falsches Ergebnis zu sein)
Danke für den Kommentar. und ich habe eine Frage .. Ich habe "Ngram" nur mit TF gefunden. Muss Ngram das Dokument normalisieren? Ich denke, tf-idf und Ngram haben einen ähnlichen Algorithmus. – Acool5
@ Acool5 es ist der genau gleiche Algorithmus, der einzige Unterschied ist die Menge der Begriffe gehen in wird in der Regel bei der Verwendung von Ngrams erhöht. –