Ich lerne maschinelles Lernen mit Python und verstehe, dass ich kategorische Daten nicht durch das Modell ausführen kann und zuerst Dummies erhalten muss. Einige meiner kategorialen Daten haben Nullen (ein sehr kleiner Teil von nur 2 Merkmalen). Wenn ich zu Dummies konvertiere, dann schaue ob ich fehlende Werte habe, es zeigt immer keine an. Sollte ich vorher imputieren? Oder unterstelle ich kategorische Daten überhaupt? Zum Beispiel, wenn die Kategorie männlich/weiblich wäre, würde ich Nullen nicht durch die Most_frequent ersetzen wollen. Ich sehe, dass dies sinnvoll wäre, wenn das Merkmal Einkommen wäre, und ich würde fehlende Werte implizieren. Einkommen ist Einkommen, während ein Mann kein Weib ist.Python Machine Learning - Kategorisierung von Daten?
Macht es also Sinn, kategorische Daten zu unterstellen? Bin ich weit weg? Es tut mir leid, das ist mehr angewandte Theorie als tatsächliche Python-Programmierung, aber war nicht sicher, wo diese Art von Frage zu posten.
Können Sie erklären, was Sie mit Dummies meinen? – BradMcDanel
Dummies ersetzen kategorische Daten durch Nullen und Einsen. Außerdem wird der Datensatz um die Anzahl unterschiedlicher Werte in Ihren Features erweitert. Ein Merkmal namens M/F wird also entweder männlich oder weiblich sein. Dies in Dummy-Form wird 2 Spalten sein .. männlich und weiblich, mit einer binären 0 oder 1 anstelle von Text. Dieses spezielle Beispiel scheint auch eine Ko-Linearität einzuführen, da jedes Mal, wenn die männliche Spalte 0 ist, die weibliche 1 ist und so weiter. – user3486773
Sie meinen also nur M/F in einer 1-Hot-Codierung: M -> [0, 1] F-> [1, 0] – BradMcDanel