2016-05-31 17 views
0

Ich machte einen KorpusHow to Dictionary Größe in Gensim während Corpus zu erhöhen?

background_corpus = TextCorpus('wiki.en.text') 

Dies ist eine über 10 GB-Datei mit dem Befehl so während dieses Corpus machen und es dem Hinzufügen zu einem Wörterbuch es diese

Daher
adding document #820000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'billycorgan', u'olmsville']...) 

discarding 31072 tokens: [(u'vnsas', 1), (u'ezequeel', 1), (u'trapeztafel', 1), (u'pubsub', 1), (u'gyvenimas', 1), (u'gilibrand', 1), (u'catfaced', 1), (u'beuningan', 1), (u'moodadi', 1), (u'nocaster', 1)]... 

keeping 2000000 tokens which were in no less than 0 and no more than 830000 (=100.0%) documents 

gibt sein die neue Verwerfen Tokens als seine maximale Größe ist 2000000. Gibt es auf jeden Fall kann ich nicht auf die Größe des Wörterbuchs beschränken?

Antwort

0

Hier ist die Erklärung https://radimrehurek.com/gensim/corpora/dictionary.html. Das Argument prune_at ist auf 2000000 eingestellt, abhängig von der Funktion, die Sie verwenden, können Sie es in None ändern, um das Problem des Verwerfens zu vermeiden.

EDIT: in Gensim/Korpora/dictionary.py (Zeile 45 in der aktuellen Version auf der Init-Funktion) können Sie prune_at = None setzen oder Ihr eigenes Limit (5000000 zum Beispiel mit prune_at = 5000000).