2016-10-19 5 views
1

Ich versuche, LDA (Latent Dirichlet Allocation) auf einem nicht-englischen Text-Dataset auszuführen.Wie setze ich benutzerdefinierte Stoppwörter für den Sklearn CountVectorizer?

Von sklearn Tutorial, gibt es dieses Teil, wo Sie Begriff Häufigkeit der Wörter zählen in den LDA zu füttern:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, 
          max_features=n_features, 
          stop_words='english') 

Welche Stoppwörter-in gebaut Funktion, die für Englisch Ich denke nur verfügbar ist. Wie könnte ich meine eigene Stoppwörterliste dafür verwenden?

+0

oh meine, ja es funktioniert! hätte beim nächsten Mal die Dokumentation besser lesen sollen. – troll

Antwort

2

können Sie weisen nur ein frozenset Ihre eigenen Worte die stop_words argument, z.B .:

stop_words = frozenset(["word1", "word2","word3"]) 
Verwandte Themen