2017-12-03 6 views
0

Der Grund, warum ich dies tun möchte, ist so, dass ich absolute Frequenzen in relative Frequenzen umwandeln kann. Es ist einfach, die Token-Anzahl für jedes Dokument zu ermitteln, aber ich bin mir nicht sicher, wie ich die Gesamtanzahl der Token für jedes Dokument ermitteln und gleichzeitig verwenden kann, damit ich die Token-Anzahl für jedes Dokument gleichzeitig berechnen kann. Gibt es eine Möglichkeit, die Zeilenumgehungen zu binden und dann die Spalte in der Kalkulation zu verwenden, wenn dies der richtige Weg ist?R- Token Anzahl jedes Dokument in DocumentMatrix erhalten

Dank

Antwort

0

Mit Blog Daten aus der englischen Version der heliohost corpus als meine Textdaten, dann ist es ziemlich einfach, Tokenzählungen durch das Dokument über das quanteda Paket zu erhalten.

library(readr) 
library(quanteda) 
blogFile <- "./capstone/data/en_US.blogs.txt" 
inFile <- blogFile 
blogData <- read_lines(blogFile) 

system.time(theText <- corpus(blogData)) 

head(summary(theText)) 

... und der Ausgang ist:

> head(summary(theText)) 
Corpus consisting of 899288 documents, showing 100 documents: 

    Text Types Tokens Sentences 
text1 18  20   1 
text2  6  7   1 
text3 104 154   7 
text4 36  43   1 
text5 91 119   5 
text6 13  13   1 

Source: C:/Users/leona/gitrepos/datascience/* on x86-64 by leona 
Created: Sat Dec 02 20:59:23 2017 
Notes:  
> 
0

Danke. In der Tat, ich glaube, ich habe eine Methode gefunden, um durch die rowSums (dtm) zu teilen. Ich hoffe, das ist der richtige Ansatz.