2017-03-04 2 views
0

Ich versuche, Analyse-Datensatz, die fast 50.000 Datensätze enthalten. Ich habe den Analyseserver und den Einstellungsalgorithmus für K-Means verwendet. Aber das Problem ist, dass die Mehrheit des Datensatzes zu einem Cluster geht (fast 48.000 Datensätze). Während ich Clustering in verschiedenen Anwendungen wie SPSS, gab es mir akzeptable Ergebnisse. Ich habe den Datensatz vorbereitet und die Ausreißer entfernt, aber das Problem ist immer noch nicht gelöst. Also, ich möchte nur fragen, ob es eine Idee gibt, mit diesem Problem umzugehen?Singelton Cluster in K-Means SQL-Server ssas

Antwort

0

Überprüfen Sie this technical documentation Artikel. Demnach geht die Standardeinstellung des Parameters "Normalisierung" von einer Normalverteilung der Daten aus; Wenn dies nicht der Fall ist, sollten Sie diese Einstellung ändern.

Ich kann nicht sicher sein, ob dies Ihr Problem ist, obwohl ... Eine gründliche Lektüre dieser Dokumentation könnte auch andere Unterschiede zwischen den beiden Algorithmusimplementierungen aufdecken.