Unten ist der Eingang Pandas Datenrahmen, den ich habe.Wie findet man die Ngram-Frequenz einer Spalte in einem Pandas-Dataframe?
Ich möchte die Häufigkeit von Unigramme & Bigrams zu finden. Eine Probe von, was ich erwarte, wird unten gezeigt
Wie man dies tut, indem man nltk oder scikit lernt?
Ich schrieb den folgenden Code, der eine Zeichenfolge als Eingabe verwendet. Wie erweitert man es auf Serie/Datenrahmen?
from nltk.collocations import *
desc='john is a guy person you him guy person you him'
tokens = nltk.word_tokenize(desc)
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(tokens)
finder.ngram_fd.viewitems()
+1 Können Sie den Unterschied zwischen fit_transform()/fit()/transform() erklären? Wie haben Sie herausgefunden, dass die Summe (sparse_matrix) .toarray() [0] die Frequenzen angibt? Ich fand nicht viele Informationen, die das in der scikit learn Dokumentation wieder auftraten. –
@ML_Pro Ich habe der Antwort eine Erklärung hinzugefügt. – Till
Als Antwort markiert. Sehr hilfreiche Erklärung. –