ich eine Textspalte in Pandas haben:Pandas + CountVectorizer: wie zum Filtern von Zeilen schnell
df['TEXT_COL']
dann ich CountVectorizer für sie gelten:
vectorizer = CountVectorizer()
v = vectorizer.fit_transform(df['TEXT_COL'])
und eine Reihe von Wörtern erhalten/Features:
ft = v.get_feature_names()
und ein TDM:
m = vectorizer.transform(df['TEXT_COL'])
ich brauche: Scheibe df die nur Zeilen enthält, die bestimmte Funktion aus feature_set ft enthalten.
Wie bekomme ich es?
Pandas Setup:
import pandas as pd
data = [('Word'), ('Word Sea Ocean'), ('Tree'), ('Forest Tree')]
df = pd.DataFrame(data)
df.columns = ['TEXT_COL']
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
v = vectorizer.fit_transform(df['TEXT_COL'])
ft = vectorizer.get_feature_names()
m = vectorizer.transform(df['TEXT_COL'])
für f in ft:
??? Hier
kann Ihnen zeigen/Posten Sie Ihre gewünschter Datensatz? Wenn Sie nach ALLEN Features suchen, erhalten Sie fast alle Zeilen (außer denen, die NUR Stoppwörter enthalten) – MaxU