2016-08-24 3 views
1

zum Ausgleich Wenn ich Entscheidungsbaum in der Scikit lesen lernen, finde ich:über wie unausgewogene Daten

Gleichgewicht Dataset vor dem Training von dem Baum zu verhindern zu den Klassen vorgespannt ist, die dominant sind. Der Klassenausgleich kann erfolgen, indem eine gleiche Anzahl von Proben aus jeder Klasse entnommen wird, oder , vorzugsweise durch Normalisieren der Summe der Probengewichte (sample_weight) für jede Klasse auf den gleichen Wert.

Im Link: http://scikit-learn.org/stable/modules/tree.html

Ich bin verwirrt.

(1)

Klasse Ausgleich kann durch Abtasten eine gleiche Anzahl von Proben aus jeder Klasse

Wenn ich so tun getan werden, sollte ich Gewicht eine richtige Probe hinzufügen verwenden für jedes Beispiel in jeder Klasse (oder Klassenbeispiel hinzufügen ...).

Zum Beispiel, wenn ich zwei Klassen: A und B mit der Anzahl der Proben

A: 100 B: 10000

Kann ich Eingang 10000 Proben für jedes Set Gewicht:

Eingangsabtastwerte von A: 10000, Eingangsabtastwerte von B: 10000

Gewicht von A: 0,01, Gewicht von B: 1 .0

(2)

Aber es noch gesagt:

vorzugsweise durch die Summe der Einwaagen (sample_weight) für jede Klasse auf den gleichen Wert zu normalisieren

Ich bin total verwirrt davon. Ist es bedeutet, sollen ich Eingang 100 Proben von A und 10000 Proben B dann Gewicht eingestellt:

Eingangsabtastwerte von A: 100, Eingangsabtastwerte von B: 10000

Gewicht von A: 1,0, Gewicht B: 1.0

Aber es scheint, dass ich nichts getan habe, um die unausgewogenen Daten auszugleichen.

Welcher Weg ist besser und was bedeutet der zweite Weg in Scikit? Kann mir jemand helfen, es zu klären?

Antwort

1

Es gibt viele Möglichkeiten, den Datensatz zu balancieren:

  1. Überabtasten (weitere Probe ohne Substitution zeichnen) aus unterrepräsentiert Klasse
  2. Under (weniger Probenentnahme- mit/ohne Substitution) von überrepräsentiert Klasse
  3. Neighborhood basierte fabrizierte Daten für unterrepräsentierte Klasse (Suche SMOTE)
  4. Gewicht basierte Methode: Obwohl Sie tun müssen, aber grob können Sie mit der Auswahl Gewichte beginnen, die weight*number of observations gleich für beide machen der vertretenen und überrepräsentierten Gruppen.
+0

Vielen Dank. Sind die unterrepräsentierten und überpräsentierten Gruppen die weniger Stichprobengruppe und mehr Stichprobengruppe? – insomnia

+0

das ist korrekt. nur ein anderer Jargon. – abhiieor

+0

Und ich bin verwirrt für Ihre ersten drei Möglichkeiten, warum brauchen Sie nicht zusätzliches Gewicht? Und der vierte Weg, warum können wir das Gewicht abstimmen? Ich dachte immer, dass Gewicht * Anzahl der Beobachtungen = verschiedene Gruppen, das ist eine Einschränkung, der wir immer folgen müssen. – insomnia