Ich versuche eine Textklassifizierung Aufgabe, wo ich Trainingsdaten von rund 500 Restaurant Bewertungen haben, die in 12 Kategorien gekennzeichnet sind. Ich verbrachte mehr Zeit damit, TF.IDF und Kosinusähnlichkeit für die Klassifizierung von Testdaten zu implementieren, nur um einige sehr schlechte Ergebnisse zu erhalten (0.4 F-measure). Mit der Zeit nicht auf meiner Seite, muss ich etwas wesentlich effektiveres implementieren, das keine steile Lernkurve hat. Ich überlege, die TF.IDF-Werte in Verbindung mit Naive Bayes zu verwenden. Klingt das sinnvoll? Ich weiß, wenn ich meine Daten im richtigen Format bekomme, kann ich das mit Scikit lernen. Gibt es noch etwas, das Sie empfehlen, denke ich?Textklassifizierung. TFIDF und Naive Bayes?
Vielen Dank.
Mit Vektoren tf.idf Werte unter Verwendung von die Trainingsdaten, wie würde ich einen Klassifikator trainieren? – user3058703