2016-12-12 3 views
0

Ich habe eine Reihe von Wörtern, für die ich prüfen muss, ob sie in den Dokumenten vorhanden sind.Wie benutze ich den Scikit learn CountVectorizer?

WordList = [w1, w2, ..., wn] 

Ein anderer Satz hat eine Liste von Dokumenten, auf denen ich prüfen muss, ob diese Wörter vorhanden sind oder nicht.

So verwenden Scikit-Learn CountVectorizer so dass die Funktionen der Begriff-Dokument-Matrix sind nur Worte aus WordList und jede Zeile repräsentiert jedes bestimmtes Dokument mit nicht mal das Wort aus der gegebenen Liste erscheint in der jeweiligen Spalte?

Antwort

0

Ok. Ich verstehe es. Der Code ist unten angegeben:

from sklearn.feature_extraction.text import CountVectorizer 
# Counting the no of times each word(Unigram) appear in document. 
vectorizer = CountVectorizer(input='content',binary=False,ngram_range=(1,1)) 
# First set the vocab 
vectorizer = vectorizer.fit(WordList) 
# Now transform the text contained in each document i.e list of text 
Document:list 
tfMatrix = vectorizer.transform(Document_List).toarray() 

erhalten Sie folgende Ausgabe nur nur der Begriff-Dokument-Matrix mit Features von Wörterbuch.