2013-03-27 9 views
5

Ich habe X als csr_matrix, die ich erhielt scikit des TFIDF vectorizer verwenden und y, die ein Array istWie initialisieren Sie eine Gensim-Corpus-Variable mit einer csr_matrix?

Mein Plan Features LDA zu erstellen ist verwenden, scheiterte aber ich zu finden, wie ein GENSIM des corpus Variable zu initialisieren, mit X als csr_matrix. Mit anderen Worten, ich möchte kein Korpus herunterladen, wie es in Gensims Dokumentation gezeigt wird, oder X in eine dichte Matrix konvertieren, da es viel Speicher verbrauchen würde und der Computer hängen könnte.

Kurz gesagt, sind meine Fragen die folgende,

  1. Wie initialisieren Sie einen GENSIM corpus gegeben, dass ich eine csr_matrix (spärlich), die den gesamten Korpus?
  2. Wie verwenden Sie LDA zum Extrahieren von Features?
+0

Können wir die Häufigkeitsmatrix auch an diese Methode übergeben? – Shashank

Antwort

7

GENSIM hat eine semi-gut versteckte Funktion, die Art dies für Sie tun können:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

„Klasse gensim.matutils.Sparse2Corpus (spärlich, documents_columns = True) Konvertieren ein Matrix im scipy.sparse-Format in ein Streaming-Gensim-Corpus. "

Ich hatte ein wenig Erfolg mit einem Corpus extrahiert mit CountVectorizer, dann in Gensim geladen.

+0

Danke eine Million @Fred, arbeitete wie ein Charme! – Curious

Verwandte Themen