2017-11-13 5 views
0

Ich versuche, eine Gruppe von Kunden basierend auf Ausgaben, Bestellhäufigkeit, Bestellbreite und was% der Käufe in jeder Kategorie (es gibt etwa 20) zu clustern.Clustering Kategorie Käufe in Kundendaten

Es wird wahrscheinlich eine einfache Antwort sein, aber ich kann nicht herausfinden, ob ich die% Kategorie kaufen oder Spalten standardisieren (subtrahieren Mittelwert und dividieren durch SD) oder nicht. Wenn ich nicht standardisiere, kann ich ungefähr 90% der Varianz in 4-5 Hauptkomponenten erklären (mit SVD), aber wenn ich jede Spalte standardisiere, bekomme ich nur etwa 40% für die gleiche Anzahl von Hauptkomponenten. Meine Sorge ist, dass, weil jede Spalte verwandt ist, ich die Beziehung durch Standardisierung entferne. Gleichzeitig mache ich mir Sorgen, dass eine Standardisierung Probleme mit den anderen Variablen in den standardisierten Daten verursachen wird.

Ich würde davon ausgehen, wenn andere versucht Clustering auf diese Weise würden sie ein ähnliches Problem konfrontiert, aber ich kann nicht scheinen, so dass es sein könnte, dass ich einfach nicht die Situation verstehen. Danke für die vorherige Klärung!

Chris,

Antwort

0

Prozentskala verfügt über einen gut definierten Bereich und schöner Eigenschaften.

Wenn Sie diese Funktionen heuristisch skalieren, verschlechtert sich normalerweise die Situation.