N-Gramm in R Fehler: ungültiges 'Zeiten' Argument

Ich versuche, this example zu folgen, aber einen Fehler gefunden.N-Gramm in R Fehler: ungültiges 'Zeiten' Argument

> library("RWeka") 
> library("tm") 
Loading required package: NLP 
> data("crude") 
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) 
> tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer)) 
Error in rep(seq_along(x), sapply(tflist, length)) : 
    invalid 'times' argument 
In addition: Warning message: 
In mclapply(unname(content(x)), termFreq, control) : 
    scheduled core 1 encountered error in user code, all values of the job will be affected

Irgendwelche Ideen?

Quelle

2016-07-27 geotheory

Verwenden Sie einfach ein besseres/modernes Paket. Ich kann mehrere Möglichkeiten vorschlagen:

Verwenden text2vec statt tm. Siehe Vignetten für Beispiele. (Ich bin der Autor).
Worth quanteda
Wenn Sie tm wie aus irgendeinem Grund zu überprüfen, tokenizers Paket versuchen RWeka ngram tokenizer zu ersetzen.

Quelle

2016-08-02 10:00:14

Dies ist genau das, was ich suche, und alle in atemberaubenden C++ Geschwindigkeiten! – geotheory

N-Gramm in R Fehler: ungültiges 'Zeiten' Argument

Antwort

Verwandte Themen