Ich habe vor kurzem begonnen, Weka zu verwenden und ich versuche, Tweets mit Naive Bayes positiv oder negativ zu klassifizieren. Also habe ich ein Trainingset mit Tweets, denen ich das Label gegeben habe und ein Testset mit Tweets, die alle das Label "positiv" tragen. Als ich Naive Bayes lief, erhalte ich folgende Ergebnisse:Bedeutung von korrekt klassifizierten Instanzen weka
korrekt klassifizierten Instanzen: 69 92% falsch klassifizierten Instanzen: 6 8%
Dann, wenn ich die Etiketten der Tweets im Test ändern auf " negativ“und lief wieder Naive Bayes, werden die Ergebnisse inversed:
korrekt klassifiziert Instanzen: 6 8% falsch klassifiziert Instanzen: 69 92%
ich dachte, dass die Genauigkeit der Naive Bayes und korrekt klassifiziert Instanzen zeigen Es sollte das gleiche sein Die Labels der Tweets im Testset müssen beachtet werden. Stimmt etwas mit meinen Daten nicht oder ich verstehe die Bedeutung von korrekt klassifizierten Instanzen nicht richtig?
Vielen Dank für Ihre Zeit,
Nantia
Vielen Dank @Junnux & Antimony für die schnellen Antworten! Das Testset wird auf diese Weise erstellt: Ich gebe meinem Programm einen Suchbegriff, twitter api gibt Tweets zurück, die diesen Begriff enthalten, diese Tweets bilden mein Testset und dann läuft Naive Bayes. Daher kann ich die richtigen Etiketten für das Testset nicht hinzufügen. Wenn ich Sie gut verstehe, kann ich in diesem Fall die Antworten des Klassifikators für die Etiketten des Testsets erhalten, aber ich kann die Genauigkeit nicht beurteilen. Habe ich es richtig gesagt? – nadia
Sie haben Recht, wenn Sie mindestens Etiketten für das Trainingset haben. Wenn du das nicht hast, dann nimmst du den falschen Weg. Naive Bayes ist ein Algorithmus für das überwachte Lernen. Wenn Sie keine Labels haben, dann ist das, was Sie suchen, "unüberwachtes Lernen", das einen anderen Satz von Algorithmen erfordert und im Allgemeinen viel schlechtere Ergebnisse liefert. Ich würde vorschlagen, entweder einen Weg zu finden, um Ihre Daten zu beschriften, oder Google, um unbeaufsichtigt zu lernen. – Antimony
Ja, mein Zweck ist überwachtes Lernen, also habe ich Etiketten für mein Trainingsset. Nochmals vielen Dank! Du hast mir wirklich geholfen, ein paar Dinge auszusortieren. :) – nadia