2016-04-15 3 views
4

Ich versuche, die wichtigsten Wörter in einem Korpus auf der Grundlage ihrer TF-IDF-Scores zu finden.Getting TF-IDF Noten von Wörtern mit Gensim

Befolgen Sie entlang des Beispiels bei https://radimrehurek.com/gensim/tut2.html. Basiert auf

>>> for doc in corpus_tfidf: 
...  print(doc) 

der TF-IDF-Wert wird in jeder Iteration aktualisiert. Zum Beispiel

  • Wort 0 ("Computer" basierend auf https://radimrehurek.com/gensim/tut1.html), hat ein TF-IDF-Score von 0,5773 (DoC# 1), 0,4442 (DoC# 2).
  • Wort 10 ("Graph") hat ein TF-IDF-Score von 0,7071 (DoC# 7), 0,5080 (DoC# 8), 0,4588 (DoC# 9)

Also hier ist, wie ich bin erhält derzeit den endgültigen TF-IDF-Wert für jedes Wort,

Gibt es einen besseren Weg?

Vielen Dank im Voraus.

Antwort

2

Wie wäre es mit Wörterbuchverständnissen?

d = {dictionary.get(id): value for doc in corpus_tfidf for id, value in doc} 
Verwandte Themen