Ich habe 40 Eingang kategoriale Felder wie „CpuModel“ (1523 Möglichkeiten)Zu viele Möglichkeiten für kategoriale Felder
jeder von ihnen Tausende von Möglichkeiten haben könnte.
Wenn ich get_dummies verwende, enthält meine Panda-Tabelle viele Dummy-Spalten. Diese Felder plane ich als Eingabemerkmale für maschinelle Lernalgorithmen zu verwenden.
Wie soll ich damit umgehen?
keine Ahnung. Ich muss die Dokumentation lesen. Was die Genauigkeit anbetrifft, wäre mein Ratschlag beides zu testen, benutze den, der das beste Ergebnis liefert. – epattaro