2016-06-07 9 views
0

I haben sich auf eine Reihe von Nachrichten, die als folgende Bag-of-Words ausnutzen:Wie man die Wörter Identifikation in das Vokabular der Wörter erhält, die das Wort gegeben werden?

bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message']) 
    B4 = bow_transformer.transform([msg4]) 
    print B4 
    print bow_transformer.get_feature_names()[6736] 
    print bow_transformer.get_feature_names()[8013] 

(0, 1158) 1
(0, 1899) 1
(0, 2897) 1
(0, 2927) 1
(0, 4021) 1
(0, 6736) 2
(0, 7111) 1
(0, 7698) 1
(0, 8013) 2

sagen

u

was muss ich gegeben Worte ist wie "sagen" seine ID von "6736" (etwas umgekehrt extrahieren, was bow_transformer.get_feature_names()[6736] ist spenden)?!

+1

Können Sie nicht nur die 'transform' Methode verwenden? d. h. 'bow_transformer.transform (['say'])' – ncfirth

+0

es gab mir so etwas wie: ** (0, 6736) \t 1 ** aber ich brauche nur 6736 – Far

Antwort

3

sollten Sie verwenden die vocabulary_ Eigenschaft:

>>> bow_transformer.vocabulary_.get('say') 
6736 
Verwandte Themen