2016-07-27 15 views
0

Ich versuche, this example zu folgen, aber einen Fehler gefunden.N-Gramm in R Fehler: ungültiges 'Zeiten' Argument

> library("RWeka") 
> library("tm") 
Loading required package: NLP 
> data("crude") 
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) 
> tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer)) 
Error in rep(seq_along(x), sapply(tflist, length)) : 
    invalid 'times' argument 
In addition: Warning message: 
In mclapply(unname(content(x)), termFreq, control) : 
    scheduled core 1 encountered error in user code, all values of the job will be affected 

Irgendwelche Ideen?

Antwort

1

Verwenden Sie einfach ein besseres/modernes Paket. Ich kann mehrere Möglichkeiten vorschlagen:

  1. Verwenden text2vec statt tm. Siehe Vignetten für Beispiele. (Ich bin der Autor).
  2. Worth quanteda
  3. Wenn Sie tm wie aus irgendeinem Grund zu überprüfen, tokenizers Paket versuchen RWeka ngram tokenizer zu ersetzen.
+0

Dies ist genau das, was ich suche, und alle in atemberaubenden C++ Geschwindigkeiten! – geotheory

Verwandte Themen