Ich habe einen Datensatz bestehen aus rund 10^6
Einträge. Aber das Problem ist, Daten sind Imbalance
.Unwucht Daten für die Klassifizierung
Ich erstelle einen linearen Klassifikator mit Adboost. Aber aufgrund von Unwuchtdaten ist meine Genauigkeit sehr schlecht. Wie man mit Unwuchtdaten zurechtkommt. Ich benutze Graphlab
.
ist hier einfacher Code für den Ausgleich von Daten:
safe_loans_raw = loans[loans[target] == 1]
risky_loans_raw = loans[loans[target] == -1]
# Undersample the safe loans.
percentage = len(risky_loans_raw)/float(len(safe_loans_raw))
safe_loans = safe_loans_raw.sample(percentage, seed = 1)
risky_loans = risky_loans_raw
loans_data = risky_loans.append(safe_loans)
aber die Genauigkeit ist die Genehmigung noch nicht, kann dies jemand für einen effizienten Ansatz zur Verfügung stellen?