2017-07-18 1 views
-1

Ich versuche Scikit für Natural Language Processing zu verwenden und ich beginne mit dem Lesen einiger Tutorials. Ich habe dieses http://www.markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/ gefunden, das erklärt, wie man tfidf Ergebnisse von einer Reihe von Dokumenten erhält.Wie finde ich TF-IDF eines Begriffes in Bezug auf ein Dokument mit scikit

Aber ich habe eine Frage, TF-IDF soll von einem Begriff, dem Dokument dieses Begriffes und der Sammlung aller zu analysierenden Dokumente abhängen.

Also zum Beispiel. In einer Sammlung von zwei Dokumenten, A und B, sollte der Ausdruck "Pferd" einen anderen TF-IDF-Wert bekommen, wenn wir TF-IDF unter Verwendung von Dokument A als denselben Ausdruck berechnen, aber durch Analyse der Termhäufigkeit aus Dokument B.

Wie kann ich TF-IDF eines Begriffs in Bezug auf ein bestimmtes Dokument mit scikit berechnen?

Antwort

0

In Tutorial Wich erwähnt Sie TF-IDF wie berechnet:

tfidf_matrix = tf.fit_transform(corpus) 

Zitat: „Wenn wir bei tfidf_matrix freuen wir erwarten würden, es sich um eine 208 x 498.254 Matrix zu sein - eine Reihe pro Folge, eine Spalte pro Satz ". Also, TF-IDF jeder Phrase ist unterschiedlich für jede Episode (Text) in dieser Matrix. Wie du erwartet hast.

Matrixelement tfidf_matrix [Dokument, Satz] ist der TF-IDF-Wert für jede bestimmte Phrase in einem bestimmten Dokument eines Korpus (alle Dokumente).

Verwandte Themen