2017-09-13 2 views
0

Kann man in Python/Scikit-learn GLM-Modellen eine kategoriale Variable verwenden, wie sie ist? Ich erkenne die Alternative der One-Hot-Codierung. Mein Problem mit diesem Ansatz ist, dass ich nicht in der Lage sein werde, die gesamte Variable auf Signifikanz zu testen. Ich kann nur die codierte Variable (die teilweise ist) testen.Kategoriale Variable in Python/Scikitlearn ohne One-Hot-Encoding

Warum kann SAS solch eine Variable und nicht Python behandeln? Bitte beraten.

+2

Letztendlich müssen Sie verstehen, was SAS "unter der Haube" macht Computer befassen sich mit numerischen Werten, nicht "Kategorien" – dartdog

Antwort

2

Es hängt tatsächlich von den Daten ab, die Sie haben. Zum Beispiel, wenn Sie der kategorialen Variable (Ordinale Werte) wie low, medium und high eine Art von Reihenfolge zuweisen können, können Sie ihnen Nummern wie 1, 2 und 3 zuweisen. Es wird jedoch ein wenig komplizierter, wenn es keine Reihenfolge gibt was auch immer. Neben One-Hot Encoding können Sie versuchen Helmert Coding Scheme. Sie können auch this blog post für weitere Analysen lesen. Es gibt auch verschiedene andere Kodierungsschemata in sklearn für kategorische Variablen:

Sie mehr über andere Categorical Encoders in Sklearn here lesen kann.

Verwandte Themen