Ich versuche, einige Textdokumente zu vektorisieren, die ich habe. Vorbereitung für eine fit() - Methode.Vectorizer meine eigenen Textdaten
ich etwas ganz der Suche hätte auf diesem und auf Basis von allem, was ich sah, sieht aus wie das der richtige Code ist
from sklearn.feature_extraction.text import TfidfVectorizer
filenames = ['aa.txt','bb.txt','cc.txt']
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(filenames)
print ("feature names - ")
print (vectorizer.get_feature_names())
erwarte ich die Worte in den Dateien als meine Funktion Namen zu sehen Aber statt hier ist das, was ich
feature names -
['aa', 'bb', 'cc', 'txt']
sehe ich dies aus der Dokumentation sehen - „Wenn‚Dateiname‘, das als Argument übergibt Sequenz zu passen erwartet wird, eine Liste von Dateinamen zu sein, der die rohen holen müssen lesen Inhalt zu analysieren. "
Danke .. hatte gesehen, aber ich versuche, alle Dateien in einem Verzeichnis zu lesen ... Und versuchte, meinen Weg darauf zu arbeiten –