2016-03-30 16 views
4

Ich mache eine erste Text Mining mit 'tm' und 'RWeka' mit Knitr für die Reproduzierbarkeit.Knitr liefert andere Ergebnisse als RStudio

Ich versuche, ein Begriff-Dokument-Matrix für einen Korpus auf zwei Textdateien, und der Prozess hat unterschiedliche Ergebnisse basierend zu erhalten, wenn ich den Code in RStudio laufen und wenn ich es in eine HTML-Datei stricken: HTML file

... wenn ich versuche, ein anderes Dokument gibt PDF- und Word-Ausgänge: PDF and Word outputs

mit RStudio zustimmen.

Und ich brauche eine HTML-Ausgabe ....

Jede Idee, was gehen kann?

Hier ist es die .Rmd Code

--- 
title: "test" 
author: "me" 
output: word_document 
--- 

```{r init, echo=FALSE, warning=FALSE, cache=TRUE, message=FALSE} 
library(knitr) 
library(tm) 
library(SnowballC) 
library(RWeka) 
setwd("~") 
options(mc.cores=1) # some problems with parallel processing 
``` 
```{r 1-gram-test, echo=FALSE, eval=TRUE,cache=TRUE} 

doc1 <- c("en un lugar de la mancha de cuyo nombre no quiero acordarme habitaba un hidalgo de los de adarga antigual, rocín flaco y galgo corredor") 
doc2 <- c("había una vez un barquito chiquitito, que no sabía, que no sabía, que no sabía navegar... pasaron un dos tres cuatro cinco seis semanas y el barquito navegó.") 
docs <- c(doc1, doc2) 
es <- Corpus(VectorSource(docs), 
     readerControl = list(reader = readPlain, 
           language = "ES-es", load = TRUE)) 
es 
# convert to plain text 
es1 <- tm_map(es, PlainTextDocument) 

monogramtok <- function(x) { 
    RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 1, max = 1)) 
} 

es_tdm1 <- TermDocumentMatrix(es1) 

esmono_tdm1 <- TermDocumentMatrix(es1, 
           control = list(tokenize = monogramtok, 
               wordLengths = c(1, Inf))) #,        

printf("es_tdm1") 
es_tdm1 

printf("esmono_tdm1") 
esmono_tdm1 

`` `

Session() R Version 3.2.3 (2015.12.10) Plattform: x86_64-Apfel-darwin13 .4.0 (64-Bit) Lauf unter: OS X 10.11.4 (El Capitan)

locale: [3] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/8-en_US.UTF

angebracht Basispakete: [3] Stats Grafiken grDevices utils Datensätze Methoden Basis

andere angeschlossene Pakete: [3] R.utils_2.2.0 R.oo_1 .20.0 R.methodsS3_1.7.1 dplyr_0.4.3 xtable_1.8-0
[6] pander_0.6.0 RWeka_0.4-24 SnowballC_0.5.1 tm_0.6-2 NLP_0.1-9
[11] knitr_1.12.3

+0

Wie ist das anders? Gibt es Warnungen oder Fehler? – alistaire

+0

Sind die Ergebnisse konsistent, wenn Sie denselben Code mehrmals in der Konsole ausführen? – Gregor

+0

Keine Warnungen oder Fehler (PDF, HTML oder RStudio). –

Antwort

2

Ich hatte ein ähnliches Problem, dann erkannte ich, dass ich meine knitr Stücke mit dem opt ion cache=TRUE (wie Sie scheinen auch eingestellt zu haben).

Dies kann einige subtile Fehler verursachen, wenn die zwischengespeicherten Teile Nebenwirkungen haben oder von externen Ressourcen abhängig sind.

Wenn ich das Caching deaktivierte, verschwanden meine Reproduzierbarkeitsprobleme.

Verwandte Themen