2015-06-05 10 views
5

Ich mache einige Textanalysearbeiten in Python. Leider muss ich zu R wechseln, um ein bestimmtes Paket zu verwenden (leider kann das Paket in Python nicht einfach repliziert werden).Transportieren von Sparse-Matrix von Python zu R

Derzeit wird der Text in Bigramm zählt analysiert, von etwa 11.000 Bigrams zu einem Vokabular reduziert und dann als Wörterbuch gespeichert:

{id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]}, 
id2: {'bigrams': ...} 

Ich brauche diese in eine dgCMatrix in R zu erhalten, wo die Reihen sind id1, id2, ... und die Spalten sind die verschiedenen Bigramme, so dass eine Zelle die 'Zählung' für dieses ID-Bigramm darstellt.

Irgendwelche Vorschläge? Ich habe darüber nachgedacht, es auf eine massive CSV zu erweitern, aber das scheint sehr ineffizient und wahrscheinlich aufgrund von Speicherbeschränkungen nicht durchführbar. mit readMM aus dem Matrix Paket

+1

Ein Beispiel mit tatsächlichen Werten und in größerer Anzahl könnte nützlicher sein. Wie es ist, erwarten Sie, dass wir ziemlich viel Arbeit machen, bevor wir überhaupt versuchen zu programmieren. Vielleicht gefällt Ihnen, dass Python-Programmierer dieses Layout besser verstehen als dieser schwache R-Coder, aber können Sie bitte mehr Substanz liefern? –

Antwort

4

Könnten Sie die Matrix in MatrixMarket Format schreiben könnten mit scipymmwrite und dann in R lesen?

+1

Das hat funktioniert! Es ist keine super-speicher-effiziente Art, es zu tun (soweit ich das beurteilen kann), aber es ist mir gelungen, es auf meinem Computer laufen zu lassen. – Craig

+0

Hoffentlich ist es ziemlich zeitsparend! LOL! :) Froh, dass ich helfen konnte. – earino

Verwandte Themen