Ich benutze Quanteda R-Paket, um Ngrams (hier 1gramm und 2gramm) aus Text Data_clean $ Review zu extrahieren, aber ich bin auf der Suche nach einem Weg mit R Chi-Quadrat zwischen zu compte document und die extrahierten ngrams:Berechne Chi-Quadrat-Wert zwischen Ngrammen und Dokumenten mit Quanteda
Hier der R-Code, den ich getan habe, um Text zu bereinigen (revoiew) und die N-Gramme zu generieren.
Irgendeine Idee bitte?
danke
#delete rows with empty value columns
Data_clean <- Data[Data$Note!="" & Data$Review!="",]
Data_clean$id <- seq.int(nrow(Data_clean))
train.index <- 1:50000
test.index <- 50001:nrow(Data_clean)
#clean up
# remove grammar/punctuation
Data_clean$Review.clean <- tolower(gsub('[[:punct:]0-9]', ' ', Data_clean$Review))
train <- Data_clean[train.index, ]
test <- Data_clean[test.index, ]
temp.tf <- Data_clean$Raison.Reco.clean %>% tokens(ngrams = 1:2) %>% # generate tokens
dfm # generate dfm
Vielen Dank, aber ich denke, mit dieser Methode, die Sie vorschlagen, es Es wird nicht einfach sein, eine dfm zu erstellen, wo die Liste der Kollokationen und das Dokument 'Data_Clean $ review' sind. –
Es sollte einfach sein ... bleib dran, während ich gerade daran arbeite. –
Ok danke :) –