Text Pre-Processing: Wandeln Sie alle Text Fall zu senken, tokenize in Unigramme, entfernen Sie alle Stoppwörter, Verwendung stemmer ein Token zu normalisieren, um es Grundwort ist.
Es gibt zwei Ansätze, die ich mir vorstellen kann, um die Dokumente zu klassifizieren: den freien Text, von dem Sie gesprochen haben. Jeder freie Text ist ein Dokument:
1) Überwachte Klassifizierung Nehmen Sie sich Zeit und wählen Sie einige Stichproben von Dokumenten nach dem Zufallsprinzip aus und ordnen Sie ihnen eine Kategorie zu. Tun Sie dies, bis Sie mehrere Dokumente pro Kategorie haben und alle Kategorien, die Sie vorhersagen möchten, abgedeckt sind.
Als nächstes erstellen Sie eine Tf-IDF-Matrix aus diesem Text. Wählen Sie die obersten K-Funktionen aus (optimieren Sie den Wert von K, um die besten Ergebnisse zu erzielen). Alternativ können Sie SVD verwenden, um die Anzahl der Features zu reduzieren, indem Sie korrelierte Features zu einem kombinieren. Bitte beachten Sie, dass Sie andere Funktionen wie die Abteilung des Kundenbetreuers und viele andere auch als Prädiktoren verwenden können. Trainiere nun ein maschinelles Lernmodell und teste es aus.
2) Unüberwachtes Lernen: Wenn Sie wissen, wie viele Kategorien Sie in Ihre Ausgangsgröße haben, können Sie diese Nummer als die Anzahl der Cluster verwenden Sie erstellen möchten. Verwende den Tf-IDF-Vektor von der obigen Technik und erstelle k Cluster. Wählen Sie zufällig aus jedem Cluster ein paar Dokumente aus und entscheiden Sie, zu welcher Kategorie die Dokumente gehören. Angenommen, Sie haben 5 Dokumente ausgewählt und festgestellt, dass sie zur Kategorie "Rückerstattungsforderung" gehören.Beschriften Sie alle Dokumente in diesem Cluster mit "Wanted Refund". Tun Sie dies für alle verbleibenden Cluster.
Der Vorteil von unüberwachtem Lernen ist, dass es Ihnen den Schmerz der Vorklassifizierung und Datenvorbereitung erspart, aber hüten Sie sich vor unbeaufsichtigtem Lernen. Die Genauigkeit ist möglicherweise nicht so gut wie beim überwachten Lernen.
Die 2 erklärten Methoden sind ein abstrakter Überblick darüber, was getan werden kann. Nun, da Sie eine Idee haben, lesen Sie mehr zu den Themen und verwenden Sie ein Tool wie rididminer, um Ihre Aufgabe schneller zu erledigen.
Wow. Das ist ... mächtig. Ich danke dir sehr. Wenn jemand daran interessiert ist, dies in R implementiert zu sehen, siehe hier: http: //stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics- different- documents-belong-to – meb33