Durch diesen Code, den Sie ein Dokument Begriff Matrix des Korpus geschaffen haben
frequencies = DocumentTermMatrix(corpus)
Document Begriff Matrix (DTM) listet alle Vorkommen der Wörter im Korpus, durch das Dokument. Im DTM werden die Dokumente in Zeilen und die Begriffe (oder Wörter) in Spalten dargestellt. Wenn ein Wort in einem bestimmten Dokument vorkommt, ist der Matrixeintrag für diese Zeile und Spalte 1, sonst ist es 0 (mehrere Vorkommen innerhalb eines Dokuments werden aufgezeichnet - das heißt, wenn ein Wort zweimal in einem Dokument vorkommt) im entsprechenden Matrixeintrag als "2" aufgezeichnet).
Als Beispiel betrachten Korpus von zwei Dokumenten.
Doc1: Bananen sind gut
Doc2: Bananen wie
sind
banana are yellow good
Doc1 1 1 1 0
Doc2 1 1 0 1
Der Ausgang
<<DocumentTermMatrix (documents: 299, terms: 1297)>>
Non-/sparse entries: 6242/381561
Sparsity : 98%
Maximal term length: 19
Weighting : term frequency (tf)
Der Ausgang gelb
DTM für die oben Korpus bedeutet aussehen würde, dass Die DTM hat 299 Einträge mit über 1297 Begriffen, die mindestens erschienen sind Einmal.
sparse = removeSparseTerms(frequencies, 0.97)
Jetzt entfernen Sie die Begriffe, die in Ihren Daten nicht allzu oft vorkommen. Wir entfernen jedes Element, das nicht in mindestens 3% der Einträge (oder Dokumente) erscheint. In Bezug auf den oben erstellten DTM entfernen wir grundsätzlich diejenigen Spalten, deren Einträge 1 in der geringsten Anzahl von Dokumenten sind.
Nun, wenn Sie die Ausgabe sehen
> sparse
<<DocumentTermMatrix (documents: 299, terms: 166)>>
Non-/sparse entries: 3773/45861
Sparsity : 92%
Maximal term length: 10
Weighting : term frequency (tf)
Die Anzahl der Einträge (Dokumente) sind immer noch die gleichen d.h 299 aber Anzahl von Begriffen Begriffe, die mindestens einmal erschienen sind, hat sich auf 166 geändert.
Danke Ravi, das hilft – subro
Wenn es hilft dann wäre ein upvote nett – Ravi