2017-07-19 2 views
0

Ich versuche Segmentierung in Kundendaten in Python mit Pandas. Ich habe eine Kunden-ID-Variable in meinem Datensatz. Ich bin hier verwirrt, obwohl es nicht als Variable betrachtet wird, die sich auf die Output-Variable auswirkt. Wie behandeln wir diese Variable bei Bedarf, eine kategorische oder eine numerische?Eindeutiger Schlüssel - CustomerID, eine kategorische oder eine numerische Variable?

Gibt es auch einen Geschäftsfall, an den Sie denken könnten, wo die customerID berücksichtigt wird?

+0

Es ist völlig unklar, was Sie fragen ... Können Sie Beispieldaten oder eine Art von Anwendungsfall bereitstellen, um Kontext bereitzustellen? –

+0

Ich habe eine Spalte namens CustomerID, die ein eindeutiger Schlüssel für einen Datensatz im Dataset ist. Ich versuche nur ein bisschen Segmentierung im Datensatz. Meine anfängliche Frage lautete: "Ist der Datentyp von CustomerID wirklich wichtig?" Und gibt es Geschäftsfragen, bei denen wir CustomerID zur Analyse berücksichtigen. – Sid29

Antwort

1

Ich glaube nicht, dass Sie customerID als Variable verwenden sollten. Dies ist ein einzigartiger Wert für jeden Kunden. Es kann als ein Index verwendet werden - um zu wissen, für welchen Kunden die Vorhersage gehört.

Sie sollten diese Spalte also besser aus Trainings-/Testdaten löschen.

+0

Okay, Danke :) – Sid29

Verwandte Themen