Wie benutze ich den Scikit learn CountVectorizer?

Ich habe eine Reihe von Wörtern, für die ich prüfen muss, ob sie in den Dokumenten vorhanden sind.Wie benutze ich den Scikit learn CountVectorizer?

WordList = [w1, w2, ..., wn]

Ein anderer Satz hat eine Liste von Dokumenten, auf denen ich prüfen muss, ob diese Wörter vorhanden sind oder nicht.

So verwenden Scikit-Learn CountVectorizer so dass die Funktionen der Begriff-Dokument-Matrix sind nur Worte aus WordList und jede Zeile repräsentiert jedes bestimmtes Dokument mit nicht mal das Wort aus der gegebenen Liste erscheint in der jeweiligen Spalte?

Quelle

2016-12-12 Sanjeev

Ok. Ich verstehe es. Der Code ist unten angegeben:

from sklearn.feature_extraction.text import CountVectorizer 
# Counting the no of times each word(Unigram) appear in document. 
vectorizer = CountVectorizer(input='content',binary=False,ngram_range=(1,1)) 
# First set the vocab 
vectorizer = vectorizer.fit(WordList) 
# Now transform the text contained in each document i.e list of text 
Document:list 
tfMatrix = vectorizer.transform(Document_List).toarray()

erhalten Sie folgende Ausgabe nur nur der Begriff-Dokument-Matrix mit Features von Wörterbuch.

Quelle

2016-12-12 06:15:12 Sanjeev

Wie benutze ich den Scikit learn CountVectorizer?

Antwort

Verwandte Themen