2016-10-12 4 views
0

Ich versuche, Cluster von Ländern mit einem sehr heterogenen Datensatz zu erstellen (die Daten, die ich über Länder habe, gehen vom Durchschnittsalter zum verfügbaren Einkommen, einschließlich Bildungsniveau).Welche Cluster-Methode sollte ich für einen mehrdimensionalen Datensatz verwenden?

Wie soll ich dieses Problem angehen?

Ich lese einige interessante Artikel über Clustering, zum Beispiel mit K-Means, aber es scheint, dass diese Algorithmen meistens verwendet werden, wenn es zwei Variablensätze gibt, nicht 30 wie in meinem Fall und wenn die Variablen vergleichbar sind wäre es vielleicht, Länder mit einer solchen Vielfalt in den Daten zu bündeln.

Sollte ich einige der Daten normalisieren? Sollte ich mich nur auf weniger Indikatoren konzentrieren, um dieses multidimensionale Problem zu vermeiden? Verwenden Sie zuerst spektrales Clustering?

Vielen Dank für die Unterstützung!

Antwort

0

Erstellen Sie eine "Ähnlichkeitsmetrik". Wahrscheinlich nur ein Gewicht für alle Ihre Messungen, aber Sie könnten einige Korrekturen für die Bevölkerungsgröße und so weiter einbauen. Dann können Sie nur wenige Hunderte von Ländern haben, so dass die meisten Brute-Force-Methoden funktionieren. Hierarchisches Clustering wäre meine erste Anlaufstelle, und das wird Ihnen sagen, ob die Daten in sich gruppiert sind.

Wenn alle Daten quantitativ sind, können Sie auf 0 - 1 normalisieren (niedrigstes Land ist 0, am höchsten ist 1), dann nehmen Sie Eigenvektoren. Dann zeichnen Sie die ersten beiden Achsen im Eigenraum aus. Das wird eine weitere visuelle Fixierung auf Cluster geben.

Wenn es jedoch nicht geclustert ist, ist es besser, das zuzugeben.

+0

Danke für die Antwort. Alle Daten sind tatsächlich quantitativ. – PixAndCo

+0

Wollte Details hinzufügen ... Also sollte ich zuerst alles normalisieren, dann nach dem Ähnlichkeitsmaß suchen? Die Sache, die ich nicht verstehe, ist, dass ich die ungefähr 30 Indikatoren normalisiert habe, aber wie wird die Ähnlichkeitsmetrik in diesem Fall berechnet? Ich muss es für jeden Indikator in Bezug auf jeden anderen Indikator berechnen? Also muss ich es 30 * 29 * ... mal machen? Oder fehlt mir hier etwas? Tut mir leid, wenn es eine Anfängerfrage ist, ich habe Ökonometrie und Statistiken gemacht, aber vor einer Weile :-) Ich werde in hierarchisches Clustering schauen, danke! – PixAndCo

+0

Die Methoden sind getrennt. Entweder bauen Sie eine "Ähnlichkeitsmetrik" auf, die etwa "Gewichtung von 2,0 auf Einkommen, 5,0 auf Bildung, 1,5 auf mittleres Alter" und so weiter, aber auch Dinge wie "Ignoriere die zwei extremsten Unterschiede" bedeuten könnte. Die Funktion ist also "Ähnlichkeit (countrya, countryb)" und gibt 0.0 zurück, wenn die beiden Länder identisch sind, und einen hohen Wert, wenn sie nichts gemeinsam haben. Oder verwenden Sie die Methode Eigenvektor (manchmal auch Hauptkomponenten nennen). –

Verwandte Themen