2016-06-03 8 views
-1

ich eine 2-Klasse unausgeglichen Dataset, wo das Verhältnis 20: 1Mit Smote auf unausgeglichene Dataset

Ich schlug die kleine Klasse überabtasten bin mit und wollte wissen, wann erschlug mit einem nutzbaren Modell zu entwickeln, ist es, wenn Am besten war die Überabtastung, so dass der Prozentsatz der Nebenklasse der gleiche war wie bei der anderen Klasse (dh 1: 1) oder durch Versuch einen Fehler das niedrigste mögliche Verhältnis zur Verbesserung des Modells auf ein akzeptables Niveau (dh F1Score> 0,7) Verwenden Sie nicht zu viele synthetische Proben, wenn dies sinnvoll ist.

Alle Gedanken/Beratung geschätzt.

+0

Willkommen bei SO. Dies ist eine Seite für Programmierfragen (siehe [hier] (http://stackoverflow.com/help/how-to-ask) für einen Überblick). Ihre Frage wäre bei Cross Validated passender. – Tchotchke

+0

Ich sehe, dass Sie zu Cross-Validated geleitet wurden, aber einen Kommentar in der Hoffnung hinzufügen, dass es nützlich sein wird. Es gibt keine klare Antwort darauf, wie mit unausgewogenen Daten umgegangen werden soll. Forschungsberichte berichten normalerweise über eine unterschiedliche Anzahl von Überabtastungen unter Verwendung von SMOTE (z. B. 100%, 200%, 500%). Sie können verschiedene Einstellungen ausprobieren und die mit der besten Kreuzvalidierungsleistung auswählen. Auch für unausgeglichene Daten würde ich vorschlagen, die Fläche unter der Präzisions-Recall-Kurve anstelle von ROC zu verwenden (siehe Jesse Davis's Papier). –

Antwort

0

Es ist immer besser, die Mehrheitsklasse als SMOTING zu unterschätzen, da meiner Erfahrung nach SMOTING nie geholfen hat Schlagen Sie einen Sweetspot in Bezug auf F! Ergebnis. -Danke Satish

0

Sie können verschiedene SMOTE Prozentsätze und nächste Nachbarn Werte versuchen. Dann wählten Sie die besten Parameterwerte basierend auf Ihrem F1Score zum Beispiel.

Ihr bestes Ergebnis ist nicht unbedingt das mit dem höchsten SMOTE-Prozentsatz.