I haben sich auf eine Reihe von Nachrichten, die als folgende Bag-of-Words ausnutzen:Wie man die Wörter Identifikation in das Vokabular der Wörter erhält, die das Wort gegeben werden?
bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
B4 = bow_transformer.transform([msg4])
print B4
print bow_transformer.get_feature_names()[6736]
print bow_transformer.get_feature_names()[8013]
(0, 1158) 1
(0, 1899) 1
(0, 2897) 1
(0, 2927) 1
(0, 4021) 1
(0, 6736) 2
(0, 7111) 1
(0, 7698) 1
(0, 8013) 2sagen
u
was muss ich gegeben Worte ist wie "sagen" seine ID von "6736" (etwas umgekehrt extrahieren, was bow_transformer.get_feature_names()[6736]
ist spenden)?!
Können Sie nicht nur die 'transform' Methode verwenden? d. h. 'bow_transformer.transform (['say'])' – ncfirth
es gab mir so etwas wie: ** (0, 6736) \t 1 ** aber ich brauche nur 6736 – Far