2016-11-14 5 views
0

Ich habe ein R tm Corpus bei 638MB in 3 Teilen (Quelle docs). Als ich versuchte, eine Wortwolke mit 100 Wörtern zu bekommen, dauerte es 12 Stunden (läuft noch). Gibt es eine Möglichkeit, dies schneller zu machen?R Wordcloud über 12 Stunden, kann ich das beschleunigen

Das ist mein Befehl, sollte 100 Wörter bekommen.

wordcloud(cleanFullCorpus, max.words = 100, random.order = FALSE, colors=brewer.pal(10,'Spectral')) 

Ich hatte gehofft zu vermeiden, die Quelldokumente zu unterteilen, kann aber bei Bedarf.

Ist es möglich, die obersten 100 Wörter zu extrahieren und dann die Wortwolke zu erstellen?

Alle anderen Ideen, um dies schneller zu machen, werden geschätzt.

Gary PS Wenn es hatte meine Maschine hilft 32 Gig RAM, 10 verwendet, und ein 8-Core-AMD-Chip bei etwa 18% laufen

+1

Sie erhalten bessere Antworten, wenn Sie einen großen reproduzierbaren Beispieldatensatz erstellen. –

Antwort

0

Es sieht aus wie Sie den Korpus in wordcloud sind vorbei, wo Sie sollten nur Übergeben Sie einen Vektor der einzigartigen Begriffe und ihrer Häufigkeiten.

tdm<-TermDocumentMatrix(cleanFullCorpus) 
termFreqs<-row_sums(tdm) 

wordcloud(names(termFreqs), termFreqs, max.words = 100, random.order = FALSE, colors=brewer.pal(10,'Spectral')) 
+0

Vielen Dank für Ihre Antwort. Ich habe das auf einem weniger leistungsfähigen Computer versucht, das Urteil ist noch aus. (Es läuft immer noch ...) – user3005033

+0

Eine TDM sollte nicht so rechenintensiv sein. Wenn Sie den Code zur Verfügung stellen könnten, der Sie zum 'worcloud'-Befehl gebracht hat, könnten wir viel mehr Hilfe anbieten. – emilliman5

Verwandte Themen