0

Um die Latent semantische Indexierung Methode von GENSIM zu verwenden, möchte ich wie mit einem kleinen „classique“ Beispiel beginnen:Latent Semantic Indexation mit GENSIM

import logging, gensim, bz2 
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') 
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') 
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400) 
etc.. 

Meine Frage ist: Wie das Corpus Iterator erhalten "wiki_de_tfidf.mm"? Muss ich es irgendwo herunterladen? Ich habe im Internet gesucht, habe aber nichts gefunden. Hilfe bitte ?

Antwort

0

Die erste Seite der Suchergebnisse enthält einen Link zu: „Lassen Sie uns zunächst laden das Corpus Iterator und Wörterbuch, oben im zweiten Schritt erstellt“

https://radimrehurek.com/gensim/wiki.html

, die besagt,

Schritt 2 ist

  1. Konvertieren den Artikel zu Klartext (Prozess Wiki Markup) und speichert das Ergebnis als sparse TF-IDF-Vektoren. In Python ist dies leicht zu tun on-the-fly und wir müssen nicht einmal das gesamte Archiv auf Disk dekomprimieren. Es gibt ein Skript in GENSIM enthalten ist, die genau das tut, laufen:

    $ python -m gensim.scripts.make_wiki

Verwandte Themen