2009-08-22 3 views
3

Ich möchte den Begriff Häufigkeit mit tf-IDF berechnen. Ich habe eine Gleichung entworfen, in der du den tf-idf-Wert auf der linken Seite bekommen solltest. Ist das richtig?Tf-IDF: Ist dieser Ansatz richtig?

TF-IDF für DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT)/number-of-words(DOCUMENT) * log10 (documents(ALL)/(1 + documents(WORD, ALL))) 
  • occurrences(WORD,DOCUMENT): Anzahl der Vorkommen von WORD in DOCUMENT
  • number-of-words(DOCUMENT): Anzahl der Wörter in DOCUMENT
  • documents(ALL): Anzahl der Dokumente in der Datenbank
  • documents(WORD, ALL): Anzahl der Dokumente in der Datenbank, die enthalten WORD

Es wäre toll, wenn Sie mir helfen könnten. Vielen Dank im Voraus!

+0

kann Ihnen helfen, auf dieser http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf? –

Antwort

1

Laut dem Wikipedia-Artikel ist es richtig, Sie möchten möglicherweise zu 1 + Dokumente (WORT, ALLE) anstatt nur Dokumente (WORT, ALLE) ändern, wie der Wikipedia-Artikel vorschlägt.

TF-IDF on wikipedia

+0

Danke! Jetzt sollte es völlig korrekt sein !? Ich lese den deutschen Wikipedia-Artikel, in dem die +1 nicht erwähnt wurde. Also danke für den guten Tipp. – caw

Verwandte Themen