K-Means-Clustering findet nicht alle Cluster in Daten

Die Datenmenge, die ich verwende, ist unten abgebildet. Wie man sieht, würden Sie denken, dass die K-Means-Cluster-Analyse die Zentren dieser Cluster leicht finden würde.K-Means-Clustering findet nicht alle Cluster in Daten

Initial Data

Allerdings, wenn ich laufen K-Means-Clusteranalyse und zeichnen Sie die Zentren ich diese.

K-means Cluster Centers

ich nur der grundlegende KMeans Code verwenden:

cluster <- kmeans(mydata,90) 
cluster$centers

Quelle

2017-12-06 tylerp

Kmeans ist kein deterministischer Algorithmus, die Zufälligkeit der ursprünglichen Zentren wird die endgültige beeinflussen Ergebnis. Wenn Sie ein erwartetes Ergebnis haben, dann geben Sie die Anfangszentren vor oder suchen Sie einen anderen Algorithmus. – Dave2e

Es sind ungefähr 5.000 Datenpunkte. Sie sind jedoch in strukturierte Cluster eingeteilt (ca. 40-60 Datenpunkte pro Cluster). – tylerp

Haben Sie versucht, einen anderen Cluster-Algorithmus zu verwenden, um die Zentren zu finden, und dann die Zentren an k-means zu senden? [z.B. h-clust] (https://stackoverflow.com/questions/44547697/cluster-algorithm-with-levenshtein-distance-and-additional-features-variables/44551452#44551452) – AkselA

Wie ich im Kommentar erwähnt, könnte die Verwendung hclust(), um die Zentren zu finden, ein praktikabler Ansatz sein.

set.seed(1) 

l <- 1e4 
v1 <- sample(1:10, l, replace=TRUE) + rnorm(l, 0, 0.05) 
v2 <- sample(1:13, l, replace=TRUE) + rnorm(l, 0, 0.05) 
dtf <- data.frame(v1, v2) 

par(mar=c(2, 2, 1, 1)) 
plot(dtf, pch=16, cex=0.2, col="#00000044") 

km <- kmeans(dtf, 10*13) 
points(km$centers, cex=2, lwd=0.5, col="red") 

hc <- hclust(dist(dtf)) 
hc <- cutree(hc, 10*13) 
hcent <- aggregate(dtf, list(hc), mean)[, -1] 

hckm <- kmeans(dtf, hcent) 

points(hckm$centers, cex=3, lwd=0.5, col="blue")

Quelle

2017-12-06 20:36:09 AkselA

Eine wenig bekannte Tatsache über KMeans dass zuverlässige Ergebnisse zu erhalten, ist, müssen Sie den Algorithmus wiederholt mit vielen zufälligen Initialisierungen laufen . Ich verwende normalerweise kmeans(, nstart = 1000).

In der Theorie leidet der kmeans++ Algorithmus nicht so viel von der Initialisierung Problem, aber ich finde oft, dass kmeans mit vielen zufälligen Neustarts besser als kmeans++ führt. Dennoch möchten Sie vielleicht kmeans++ mit dem flexclust R-Paket versuchen.

Quelle

2017-12-06 18:16:37

Leider löste das nicht das Problem, das ich hatte . Es hat die Ergebnisse leicht verbessert, aber ich bekomme immer noch überlappende Cluster-Zentren. – tylerp

Versuchen Sie, zu 'nstart = 10000' oder sogar' nstart = 100000' zu gehen. Wenn keiner von beiden funktioniert, benötigen Sie eine andere Möglichkeit, eine gute Initialisierung durchzuführen. Nicht eine sehr befriedigende Antwort, ich weiß, aber optimale k-Means-Clustering ist ein NP-vollständiges Problem, so dass Sie nicht viel mehr tun können. –

Dieser Datensatz ist wahrscheinlich viel besser sein durch DBSCAN geclustert werden.

Wählen Sie Epsilon kleiner als der Abstand von Clustern (zB 10) und MinPts soll nicht viel dann, zum Beispiel MinPts = 4

Quelle

2017-12-09 17:44:30

Dies scheint mir die 90 Cluster zu geben, nach denen ich suche, aber wie extrahiere ich den Mittelpunkt/Mittelwert jedes Clusters? – tylerp

DBSCAN ist nicht zentriert, Fehler können Sie den Mittelwert selbst berechnen. –

K-Means-Clustering findet nicht alle Cluster in Daten

Antwort

Verwandte Themen