6

vor kurzem kam ich Clustering in Data-Mining zu studieren und ich habe sequentielle Clustering und hierarchische Clustering und k-Mittel untersucht.Fragen zu Clustering-Methoden

Ich lese auch über eine Aussage, die k-means von den anderen beiden Clustering-Technik unterscheidet, sagen k-Means ist nicht sehr gut im Umgang mit nominalen Attributen, aber der Text hat diesen Punkt nicht erklärt.Soweit, die Der einzige Unterschied, den ich sehen kann, ist, dass wir für K-Mittel wissen werden, dass wir genau K-Cluster benötigen, während wir nicht wissen, wie viele Cluster wir für zwei andere Clustering-Methoden benötigen.

Also könnte mir irgendjemand eine Idee darüber geben, warum eine solche Aussage existiert, d. H. K-means hat dieses Problem, wenn es um Beispiele von nominalen Attributen geht, und gibt es einen Weg, dies zu überwinden?

Vielen Dank im Voraus.

Antwort

5

Der k-Means-Algorithmus berechnet Clusterschwerpunkte, indem er die Mittelwerte aller Punkte im Cluster berechnet. Wenn ein Parameter nominal ist, können Sie keinen Mittelwert nehmen.

Manchmal können Nennwerte in eine bestimmte Reihenfolge gebracht und dann auf reale Werte abgebildet werden. Beispielsweise könnten Wochentage auf den Bereich [1.0 - 7.0] abgebildet werden, manchmal ist das aber auch nicht möglich, beispielsweise ein Attribut mit Werten [Windows, Linux, OSX].

+0

Beachten Sie, dass wir normalerweise den Majoritätswert der diskreten Variablen bei der Berechnung der Clusterschwerpunkte verwenden. – Amro