Ich versuche, LDA (Latent Dirichlet Allocation) auf einem nicht-englischen Text-Dataset auszuführen.Wie setze ich benutzerdefinierte Stoppwörter für den Sklearn CountVectorizer?
Von sklearn Tutorial, gibt es dieses Teil, wo Sie Begriff Häufigkeit der Wörter zählen in den LDA zu füttern:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
max_features=n_features,
stop_words='english')
Welche Stoppwörter-in gebaut Funktion, die für Englisch Ich denke nur verfügbar ist. Wie könnte ich meine eigene Stoppwörterliste dafür verwenden?
oh meine, ja es funktioniert! hätte beim nächsten Mal die Dokumentation besser lesen sollen. – troll