2017-07-24 2 views
-2

Ich versuche, k-Means Clustering-Algorithmus mit Matlab zu lernen. Das Problem ist, dass ich keine Beispieldaten finden kann, die es einfacher machen, den Algorithmus gut zu verstehen. Ich finde jedoch ein Beispiel auf mathworks, das das k-Means-Clustering spezifiziert. Aber leider kann ich es nicht verstehen. Ich habe versucht, diesen einfachen Datensatz zu verstehen, den ich unter Stack-overflow gefunden habe.Understanding K-Means Clustering

Bitte, ich brauche ein grundlegendes Beispiel für die k-Means Clustering, die, wenn ich es auf einer Software (d. H. Matlab) implementiert, werde ich sicherstellen, dass ich es richtig anwenden.

Schließlich werden alle Daten-Sets auf die auf dem UCI zum Beispiel sind zu groß, und ich kann nicht verstehen, wenn meine Implementierung korrekt ist oder nicht.

Vielen Dank im Voraus.

+0

Was ist los mit der Erstellung eigener Daten? [Dieses Beispiel] (https://www.mathworks.com/help/stats/kmeans.html#buefthh-2) scheint ziemlich nützlich zu sein. Welchen Teil von Kmeans findest du verwirrend? – beaker

Antwort

0

Wir haben eine Reihe von Daten bekommen, die jemand fallen in drei Cluster sagen würde. Wir wissen, dass die Cluster-Nummer drei ist, aber ansonsten möchten wir, dass die Software das Clustering für uns durchführt.

beginnen also durch zufällig drei Objekte Clusterzentren zuweisen. Gehen Sie nun durch und weisen Sie jedes Objekt seinem nächsten Cluster zu. Das Ergebnis sind drei Cluster, aber eher hässliche, weil es unwahrscheinlich ist, dass wir zum ersten Mal die drei tatsächlichen Schwerpunkte erreicht haben.

nehmen also die mittlere vale jedes Clusters Sie erzeugt haben, und gehen wieder durch, um die Objekte zu den neuen Clusterzentren assinging. Wiederholen Sie dies, bis der Algorithmus die Stabilität erreicht hat. Der Prozess der Mittelwertbildung neigt dazu, die Vermutungen bezüglich der Clusterzentren auf die tatsächlichen Zentren zu erzwingen.

Es funktioniert jedoch nur, wenn Daten tatsächlich gruppiert sind.

0

Ich weiß, dass Sie Matlab verwenden, aber R eine Reihe von Datensätzen zum Testen Clustering-Algorithmen hat, darunter einige, die ziemlich klein sind. Der Ruspini-Datensatz ist ein guter Ausgangspunkt. Diese Datensätze sind als CSV-Dateien von github verfügbar und MatLab sollte in der Lage sein, die CSV-Dateien zu lesen. Suchen Sie auf dieser Seite nach dem Wort Cluster.

0

Die sehr klassische iris Daten sind in Ordnung für das Verständnis k-bedeutet.

sogar erhalten einige der Probleme von k-Mittel zu sehen.