Ich habe 30.000 Sätze nach Gefühl kategorisiert.Soll ich den Anteil der Kategorien bei einer Stratifizierung beibehalten?
Ich werde Naive Bayes verwenden.
Hier ist der Anteil (Stimmung -> Anzahl der Phrasen).
anger 98
boredom 157
empty 659
enthusiasm 522
fun 1088
happiness 2986
hate 1187
love 2068
neutral 6340
relief 1021
sadness 4828
surprise 1613
worry 7433
Also, ich habe meine Daten-Sets in Zug/Test aufzuspalten mein Modell auszuführen, etc, nicht wahr?
Soll ich den Anteil der Kategorien bei der Stratifizierung beibehalten?
Ich meine, wenn ich 30% für die Testprobe wähle, sollte ich 30% von jedem Gefühl anstelle von 30% des gesamten Datensatzes behalten?
Ich denke ja, aber ich möchte eine erfahrene Meinung haben.
Und wie würden Sie das tun? Jeder hier kennt einen besseren Weg das zu tun, anstatt eine Python-Schleife auszuführen, welches Sentiment zu testen, 30% zu berechnen, ein Wörterbuch usw. zu schreiben?
Gibt es einen Pandastrick, der nach einer Kategoriefunktion stratifiziert werden kann, wobei der Anteil beibehalten wird?
für die Erklärung Vielen Dank! –
@AlexanderFrancaFernandes Sie sind herzlich willkommen – desertnaut