ich eine 2-Klasse unausgeglichen Dataset, wo das Verhältnis 20: 1Mit Smote auf unausgeglichene Dataset
Ich schlug die kleine Klasse überabtasten bin mit und wollte wissen, wann erschlug mit einem nutzbaren Modell zu entwickeln, ist es, wenn Am besten war die Überabtastung, so dass der Prozentsatz der Nebenklasse der gleiche war wie bei der anderen Klasse (dh 1: 1) oder durch Versuch einen Fehler das niedrigste mögliche Verhältnis zur Verbesserung des Modells auf ein akzeptables Niveau (dh F1Score> 0,7) Verwenden Sie nicht zu viele synthetische Proben, wenn dies sinnvoll ist.
Alle Gedanken/Beratung geschätzt.
Willkommen bei SO. Dies ist eine Seite für Programmierfragen (siehe [hier] (http://stackoverflow.com/help/how-to-ask) für einen Überblick). Ihre Frage wäre bei Cross Validated passender. – Tchotchke
Ich sehe, dass Sie zu Cross-Validated geleitet wurden, aber einen Kommentar in der Hoffnung hinzufügen, dass es nützlich sein wird. Es gibt keine klare Antwort darauf, wie mit unausgewogenen Daten umgegangen werden soll. Forschungsberichte berichten normalerweise über eine unterschiedliche Anzahl von Überabtastungen unter Verwendung von SMOTE (z. B. 100%, 200%, 500%). Sie können verschiedene Einstellungen ausprobieren und die mit der besten Kreuzvalidierungsleistung auswählen. Auch für unausgeglichene Daten würde ich vorschlagen, die Fläche unter der Präzisions-Recall-Kurve anstelle von ROC zu verwenden (siehe Jesse Davis's Papier). –