Ich versuche, einige Thema Modellierung tun wollen, aber Phrasen verwenden, wo sie existieren, anstatt einzelne Wörter dhThema Modellierung in R mit Phrasen, anstatt einzelne Wörter
library(topicmodels)
library(tm)
my.docs = c('the sky is blue, hot sun', 'flowers,hot sun', 'black cats, bees, rats and mice')
my.corpus = Corpus(VectorSource(my.docs))
my.dtm = DocumentTermMatrix(my.corpus)
inspect(my.dtm)
Wenn ich meine dtm inspizieren es spaltet bis alle Worte, aber ich möchte, dass alle Phrasen zusammen dort also eine Spalte für jede sein sollte: der Himmel ist blau heißen Sonne Blumen schwarze Katzen Bienen Ratten und Mäuse
Wie Machen Sie die Document Term Matrix dazu, Sätze und Wörter zu erkennen? sie sind durch Komma
Die Lösung getrennt muss effizient sein, wie ich es über eine Menge von Daten
Nigrams funktionieren gut, wenn alle Ihre Phrasen die gleiche Anzahl von Wörtern haben (was unwahrscheinlich erscheint), andernfalls müssen Sie Ihr eigenes dtm ohne Verwendung des tm-Pakets erstellen. – Ben
OK - Tipps für die Erstellung einer eigenen DTM? – shecode
@ lawyeRs Antwort unten zeigt Ihnen wie. – Ben