2016-11-29 4 views
0

Ich benutze Rs Quanteda-Paket und die neuesten Versionen für R und das Paket. Ich habe ein Korpus von Dokumenten, die Millionen zählen.Quanteda - Funktion auf DFM über Dokumentvariablen anwenden

Nehmen wir an, ich habe einen DFM generiert von Quanteda mit jedem Dokument mit einem Docvar des Datums. Es gibt Tausende von Dokumenten, die an einem bestimmten Tag generiert werden, aber ich möchte die DFMs erhalten, die am Tag auf die Dokumente angewendet werden (so dass ich für jeden Begriff eine Gesamtzahl an Wörtern pro Tag habe). Ich weiß, dass Quanteda mit data.table erstellt wird, also sollte es möglich sein, dies zu tun, aber ich habe wenig in den "Erste Schritte mit Quanteda" oder StackOverflow gefunden, die einen sauberen Weg dazu bieten.

Irgendwelche Vorschläge?

Antwort

1

Sie wollen den 'Gruppen' Argument dfm:

> # Add some random dates to an existing corpus 
> docvars(data_corpus_inaugural)$date <- rep(as.Date(runif(19, 1, 18000), origin='1970-01-01'), 3) 

> dfm_inaugural <- dfm(data_corpus_inaugural, groups='date') 
> head(dfm_inaugural) 
Document-feature matrix of: 19 documents, 9,215 features (80.8% sparse). 
(showing first 6 documents and first 6 features) 
      features 
docs   fellow citizens i appear before you 
    1970-12-27  4  7 39  2  10 17 
    1972-04-25  8  13 29  1  8 8 
    1973-08-22  1  3 48  1  6 1 
    1973-10-11  2  4 25  0  3 5 
    1974-01-05  3  9 57  0  7 2 
    1975-04-12  7  21 63  4  6 16 
Verwandte Themen