Ich baue ein Sentiment-Analyse-Programm mit einigen Tweets, die ich gesammelt habe. Die beschrifteten Daten, die ich gesammelt habe, würden durch ein neurales Netzwerk gehen, das sie in zwei Klassen klassifiziert, positiv und negativ.Ist das Verhältnis von zwei Klassen bei Klassifizierungsproblemen wichtig?
Die Daten werden noch etikettiert. Bisher habe ich beobachtet, dass die positive Kategorie sehr wenige Beobachtungen enthält.
Die Datensätze für die positive Kategorie in meinem Trainingssatz könnten etwa 5% des Trainingsdatensatzes sein (das gleiche Verhältnis könnte sich auch in der Population widerspiegeln).
Würde dies zu Problemen im letzten "Programm" führen? Die Größe des Datensatzes beträgt ca. 5000 Datensätze.
Da die Datenpunkte Tweets hier sind, muss ich mehr von ihnen sammeln, wie Sie darauf hinweisen. Sammeln Sie also mehr Daten für die Klasse mit weniger Datensätzen? – Bhashithe
Ich würde empfehlen, mit "wahrem Verhältnis" zu sammeln, solange die kleinste Klasse groß genug ist, um mit der Verarbeitung zu beginnen. Es ist einfacher, Daten hinterher zu verwerfen und dann neue zu bekommen, wenn es möglich ist - einfach mehr von allem sammeln. Wenn es aus irgendeinem Grund zu teuer ist - verfolgen Sie den wahren Prior und konzentrieren Sie sich auf die Minderheitsklasse, und verwenden Sie diesen Prior (5% gegenüber 95%) später sowohl in Ihrem Klassifizierer als auch im Test – lejlot