2016-04-17 4 views
1

ich zu Data Mining bin neu und ich versuche Entscheidungsbaum zu trainieren, aber der Datensatz ich gewählt habe, ist sehr voreingenommen daher das Ergebnis, das ich erhalte auch vorgespannt ist. Ich habe online gesucht und bin mit ausgewogener Genauigkeit gereist. Ich bin nicht mit dem Ergebnis zufrieden.Trainingsentscheidungsbaum mit voreingenommen Datensatz

Ist es eine gute Idee, wenn ich meinen Datensatz so probiere, dass ich ihn gleichmäßig verteile, wie in 1000 Fällen von YES und 1000 von NO?

+0

Anstatt den Datensatz neu zu erfassen, verwende ich Gewichte während des Trainings. –

Antwort

0

Eine Möglichkeit Klasse Ungleichgewicht zu handhaben ist die größere Klasse unterzuabzutasten, so dass die Klassenverteilung etwa die Hälfte und die Hälfte ist.

Antwort auf Ihre Frage ja, vorausgesetzt, 1000 die Größe der kleineren Klasse ist, so dass Sie verlieren weniger größeren Klasse Datenpunkte.

Hinweis: Bei der Auswahl aus größeren Datenpunkten versuchen Sie, die Datenpunkte auszulassen, die mehr fehlende Werte enthalten.

0

Sie können auch weightage beim Modellieren geben. Sie können der Minderheitsklasse ein höheres Gewicht zuweisen, um das Ungleichgewicht auszugleichen.

Verwandte Themen