Hat gensim.corpora.Dictionary Termhäufigkeit gespeichert?Hat gensim.corpora.Dictionary Worthäufigkeit gespeichert?
Von gensim.corpora.Dictionary
, ist es möglich, das Dokument Häufigkeit der Worte zu erhalten (dh wie viel Dokument ein bestimmtes Wort in nicht auftritt):
from nltk.corpus import brown
from gensim.corpora import Dictionary
documents = brown.sents()
brown_dict = Dictionary(documents)
# The 100th word in the dictionary: 'these'
print('The word "' + brown_dict[100] + '" appears in', brown_dict.dfs[100],'documents')
[out]:
The word "these" appears in 1213 documents
Und Es gibt die Funktion filter_n_most_frequent(remove_n)
, die die n-ten häufigsten Token entfernen kann:
filter_n_most_frequent(remove_n)
Filtern Sie die häufigsten Token "remove_n", die in den Dokumenten angezeigt werden.Verringern Sie nach dem Beschneiden die Lücken in den Wort-IDs.
Hinweis: Aufgrund der Lücke schrumpft das gleiche Wort möglicherweise eine andere Wort-ID vor und nach dem Aufruf dieser Funktion!
Ist filter_n_most_frequent
Funktion der n-ten am häufigsten auf der Grundlage der Dokumentenhäufigkeit oder Zeitfrequenz zu entfernen?
Wenn es das letztere ist, gibt es eine Möglichkeit, den Begriff Häufigkeit der Wörter im gensim.corpora.Dictionary
Objekt zuzugreifen?