Es gibt zwei Fragen, die hier durcheinander gebracht werden. Einer ist, wie man einen Änderungspunkt auf einer Kurve findet, und der andere ist, wie man die Qualität der Anpassung quantifiziert, wenn man k-means verwendet, um Daten zu klassifizieren. Die Cluster-Analyse-Leute scheinen diese beiden Fragen jedoch zusammenzufassen. Haben Sie keine Angst davor, andere Kurvenanpassungs-/Änderungspunktmethoden zu untersuchen, und zwar mit der für Sie am besten geeigneten Metrik.
Ich weiß, dass die Ellbogenmethode, mit der Sie verbunden sind, eine bestimmte Methode ist, aber Sie könnten an etwas ähnlichem interessiert sein, das im Bayesschen Informationskriterium (BIC) nach dem "Knie" sucht. Der Knick in BIC gegenüber der Anzahl von Clustern (k) ist der Punkt, an dem man argumentieren kann, dass ein steigender BIC durch Hinzufügen von mehr Clustern angesichts der zusätzlichen Rechenanforderungen der komplexeren Lösung nicht mehr vorteilhaft ist. Es gibt eine nette Methode, die die optimale Anzahl von Clustern aus dem Vorzeichenwechsel der zweiten Ableitung des BIC erkennt. Siehe z.B.
Zhao, Q., V. Hautamaki und P. Franti 2008a: Kniespeicherkennung im BIC zur Erkennung der Anzahl der Cluster. Fortgeschrittene Konzepte für intelligente Bildverarbeitungssysteme, J. Blanc-Talon, S. Bourennane, W. Philips, D. Popescu und P. Scheunders, Hrsg., Springer Berlin/Heidelberg, Vorlesungsnotizen in Informatik, Vol. 2, No. 5259, 664-673, doi: 10.1007/978-3-540-88458-3 60.
Zhao, Q., M. Xu und P. Franti, 2008b: Kniespeicherkennung nach bayesischem Informationskriterium. Werkzeuge mit künstlicher Intelligenz, 2008. ICTAI '08. 20. IEEE International Conference on, Vol. No. 2, 431 -438, doi: 10,1109/ICTAI.2008.154
Sie könnten in einer automatisierten Anwendung dieser interessiert sein, Daten in http://journals.ametsoc.org/doi/abs/10.1175/JAMC-D-11-0227.1
See berichtet Wetter, auch Finding the best trade-off point on a curve für eine ausgezeichnete Diskussion über die allgemeine Ausrichtung.
Eine letzte Beobachtung: stellen Sie sicher, dass Sie in Ihren Logarithmen konsistent sind. Verschiedene Communities verwenden unterschiedliche Schreibweisen, und dies kann eine Fehlerquelle beim Vergleich der Ergebnisse sein.
vom Wikipedia-Artikel hilft: „Diese "Ellenbogen" kann nicht immer eindeutig identifiziert werden. "Ich denke, dass es bei dieser Methode eine gewisse Subjektivität gibt, die eine Implementierung erschwert. – Roland
mögliches Duplikat von [Clusteranalyse in R: Bestimme die optimale Anzahl von Clustern] (http: // stackoverflow. com/questions/15376075/cluster-analysis-in-r-ermitteln-die-optimale-Anzahl-von-Clustern) –