Ich trainiere einen BinaryClassifier auf Daten, die 100 Attribute hat, wo das positive Szenario nur 3% von 800k Elemente auftritt. Müssen wir während des Trainings sowohl die positiven als auch die negativen Instanzen einbeziehen? Ich nehme an, dass wir nicht sollten, da das Ergebnis nur binär wäre, d.h. wenn das Modell auf Positive trainiert wird, dann würde eine schwache Übereinstimmung bedeuten, dass es negativ ist.Scikit BinaryClassification Trainingsdaten Auswahl
Falls für den Fall, dass ich beide enthalten muss dann wäre die Sample-Methode des Pandas DataFrame zuverlässig?
Vielen Dank!
"Wenn Sie einen binären Klassifikator trainieren, benötigen Sie zwei Ausgaben in Ihrem Trainingsdatensatz." ist nicht wirklich wahr, und auch nicht das, worauf sich die Frage bezieht, denke ich. Es ist üblich, nur die Wahrscheinlichkeit der positiven Klasse auszugeben. – nnnmmm