Hier ist der Prozess der Satz Klassifizierung:
1) den Text normalisieren - bringen den gesamten Text Fall Wörter
2) Entfernen Sie alle Anschlag zu senken - stellt sicher, dass nur relevante Merkmale verbleiben
3) Tokenize die Sätze zu Unigramm-Token
4) Bewerben stemming Technik - versuchen Sie verschiedene Stemming-Modelle/Lemmatizer, um die Wörter zu ihrem Basiswort zu bringen. Sehen Sie, welche für Ihren Fall am besten funktioniert. Zum Beispiel: spielen, spielen, Spiele werden in das Basiswort "play" umgewandelt. Dieser Schritt reduziert die Anzahl der Features.
5) Erstellen Sie eine Term Document Matrix für alle Sätze. Jede Zeile des TDM entspricht einem Satz und jede Spalte des TDM entspricht einem Token des Satzes. (Es gibt eine andere Möglichkeit, Text in Form einer Matrix mit der Bezeichnung Tf-Idf darzustellen)
6) Nun enthält diese Term-Dokumentmatrix Token als Spalten. Sie haben bereits die Etiketten an Ort und Stelle. Sie können jetzt mit dem Training der ML-Modelle beginnen. Ich nehme an, Sie wissen, wie man diesen Teil macht.