2017-03-14 1 views
1

Bevor ich meine Version von RStudio aktualisierte, funktionierte alles super. Mit dem Update hat sich etwas mit Document Term Matrix im 'tm' Paket geändert. Ich möchte ein dtm erstellen, aber mit Zahlen. Zum Beispiel, wenn ich eine CSV mit einer Spalte, wie unten dargestellt:Document Term Matrix wird keine Nachkommastellen von Zahlen beibehalten

x 
1.01 
11.21 
123.35 
212.11 

Ich möchte die Spaltennamen in meinem Begriff Matrix wie folgt aussehen:

1.01 11.21 123.35 212.11 
1 0  0  0 
0 1  0  0 
0 0  1  0 
0 0  0  1 

Aber stattdessen sieht es wie folgt aus:

123 212 
0 0 
0 0 
1 0 
0 1 

Hier ist der Code, der zur Arbeit verwendet:

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

Vielen Dank im Voraus

+0

welche Version haben Sie? Ich habe Version 1.0.136 und es scheint zu funktionieren, wie Sie gehofft hatten. – Lucy

+0

Ich habe 1.0.136 auch ..... –

+0

Tatsächlich sind die Ergebnisse: '123 212' als die Spaltennamen. Nicht '1 11 123 212' wie erwähnt @Lucy –

Antwort

1

Vom 'tm' Paketbetreuer Ingo Feinerer:

Hier ist der Code, der zur Arbeit verwendet:

Korpus = Corpus (VectorSource (x))

Versuchen Sie VCorpus() anstelle von Corpus().

DGM = DocumentTermMatrix (corpus) dtm_df = as.data.frame (as.matrix (DGM))

, die hoch effizient ist (da as.matrix() erzeugt eine dichte Darstellung von die spärliche Term-Dokument-Matrix).

Mit freundlichen Grüßen, Ingo

Verwandte Themen