5

Ich muss Text klassifizieren und ich benutze Text Blob Python-Modul, um es zu erreichen.Ich kann entweder Naive Bayes Klassifikator/Entscheidungsbaum verwenden. Ich bin besorgt über die unten genannten Punkte.Text Klassifizierung in Python - (NLTK Satz basiert)

1) Ich muss Sätze als Argument/kein Argument klassifizieren. Ich verwende zwei Klassifikatoren und trainiere das Modell mit apt-Datensätzen. Meine Frage dreht sich alles um muss ich das Modell mit nur Keywords trainieren? oder ich kann den Datensatz mit allen möglichen Argumenten und Nicht-Argument Beispielsätze trainieren? Was wäre der beste Ansatz in Bezug auf Genauigkeit und Zeit für die Textklassifizierung?

2) Da die Klassifizierung entweder Argument/kein Argument wäre, welcher Klassifikator würde genaue Ergebnisse liefern? Es ist Naive Bayes/Entscheidungsbaum/Positive Naive Bayes?

Vielen Dank im Voraus.

Antwort

1

Idealerweise sind it is said that the more you train your data, the 'better' your results aber es hängt wirklich davon ab, nachdem Sie es getestet haben und verglichen es mit den echten Ergebnissen, die Sie vorbereitet haben.

So, um Ihre Frage zu beantworten, kann das Training des Modells mit Schlüsselwörtern Ihnen zu breite Ergebnisse geben, die möglicherweise keine Argumente sind. Aber wirklich, Sie müssen es mit etwas vergleichen, also schlage ich vor, Sie möchten vielleicht auch Ihr Modell mit einer Satzstruktur trainieren, der Argumente folgen (ein Muster irgendeiner Art), es könnte diejenigen eliminieren, die keine Argumente sind. Tue dies und teste es dann, um zu sehen, ob du eine höhere Genauigkeit als das vorherige Modell erhältst.

Um Ihre nächste Frage zu beantworten: Was wäre der beste Ansatz in Bezug auf die Genauigkeit der Textklassifizierung und die Zeit zum Abrufen? Es hängt wirklich von den Daten ab, die Sie verwenden, ich kann diese Frage nicht wirklich beantworten, da Sie eine Kreuzvalidierung durchführen müssen, um zu sehen, ob Ihr Modell eine hohe Genauigkeit erreicht. Je mehr Funktionen Sie suchen, desto schlechter ist die Leistung Ihres Lernalgorithmus. Und wenn es sich um Gigabyte zu analysierenden Text handelt, empfehle ich Mapreduce, diesen Job auszuführen.

Sie könnten SVMs als Ihr Lernmodell ausprobieren, testen Sie es mit den Lernmodellen (naive Bayes, positive naive Bayes und Entscheidungsbäume) und sehen Sie, welche besser funktioniert.

Hoffe, das hilft.

Verwandte Themen