2017-01-24 1 views
0

Ich habe 40 Eingang kategoriale Felder wie „CpuModel“ (1523 Möglichkeiten)Zu viele Möglichkeiten für kategoriale Felder

jeder von ihnen Tausende von Möglichkeiten haben könnte.

Wenn ich get_dummies verwende, enthält meine Panda-Tabelle viele Dummy-Spalten. Diese Felder plane ich als Eingabemerkmale für maschinelle Lernalgorithmen zu verwenden.

Wie soll ich damit umgehen?

Antwort

0

In diesem Fall sollten Sie labelencoder verwenden.
Wenn Sie es in einer kategorialen Spalte verwenden, wird eine Spalte mit numerischen Werten zurückgegeben, die die Häufigkeitszählung dieser Variablen darstellen.


Referenz: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html


Hoffnung, das hilft!

+0

keine Ahnung. Ich muss die Dokumentation lesen. Was die Genauigkeit anbetrifft, wäre mein Ratschlag beides zu testen, benutze den, der das beste Ergebnis liefert. – epattaro

Verwandte Themen