Ich habe eine Reihe von Wörtern, für die ich prüfen muss, ob sie in den Dokumenten vorhanden sind.Wie benutze ich den Scikit learn CountVectorizer?
WordList = [w1, w2, ..., wn]
Ein anderer Satz hat eine Liste von Dokumenten, auf denen ich prüfen muss, ob diese Wörter vorhanden sind oder nicht.
So verwenden Scikit-Learn CountVectorizer
so dass die Funktionen der Begriff-Dokument-Matrix sind nur Worte aus WordList
und jede Zeile repräsentiert jedes bestimmtes Dokument mit nicht mal das Wort aus der gegebenen Liste erscheint in der jeweiligen Spalte?