Gibt es eine Möglichkeit, ein Korpus zu erstellen, ohne Elemente in Dateien haben zu müssen. Ich möchte zum Beispiel Tweets oder Absätze manipulieren, die ich aus dem Internet geholt habe. Kann ich etwas tun, wieKann ich ein Korpus aus einer Sammlung von Strings in NLTK erstellen?
myCorpus = MyCorpus([
('id', 'item', 'category'),
('id', 'item', 'category'),
('id', 'item', 'category'),
... ])
Oder
myCorpus.add('id', 'item', 'category')
Der Zweck ist es, den Korpus mit bestehenden NLTK Fähigkeiten zu manipulieren. Ich habe TextCollection
überprüft, aber es scheint, dass es keine Kategorien behandelt.
Es kann schneller sein, Dinge im Speicher zu behalten. Zum Beispiel, wenn Sie Inhalte aus dem Internet scrappen. –