Ich versuche Wörter zu entfernen, die einmal in meinem Vokabular vorkommen, um meine Wortschatzgröße zu reduzieren. Ich benutze den Sklearn TfidfVectorizer() und dann die Funktion fit_transform auf meinem Datenrahmen.Entfernen Sie einzelne Vorkommen von Wörtern im Vokabular TF-IDF
tfidf = TfidfVectorizer()
tfs = tfidf.fit_transform(df['original_post'].values.astype('U'))
Mein erster Gedanke ist das Präprozessor Feld in der TFIDF vectorizer oder mit dem Vorverarbeitung Paket vor maschinellem Lernen.
Irgendwelche Tipps oder Links zur weiteren Implementierung?