2016-10-26 6 views
0

Warum kann die Verwendung von angepasstem Rand-Index (ARI) und normalisierter gegenseitiger Information (NMI) in Cluster-Methoden zu einer besseren Messung als einfache Testergebnisse (wie MSE) führen? Ich verstehe, dass welcher Punkt zu welchem ​​Cluster in Clustering-Algorithmen wichtig ist, und Beschriftung ist beliebig.adjusted rand index (ARI)

Antwort

2

Sie haben selbst geantwortet - es gibt kein "MSE" für Clustering, da MSE nur definiert ist, wenn Sie den Wert Wert der abhängigen Variablen kennen. Beim Clustering wird es nicht nur willkürlich zugewiesen, sondern es gibt auch nicht das Konzept einer "Zahl", und MSE ist Regressionsmetrik, es arbeitet mit Zahlen, nicht mit Klassen. Nun, warum nicht einfach Accuracy verwenden, indem einfach alle möglichen Permutationen der Etikettierung berechnet werden? Nun, das ist (fast) genau das, was RandIndex ist, obwohl es in der anderen Gesellschaft entstanden ist und einen anderen Namen hat, es ist sehr eng verwandt mit der Zuordnung zwischen Cluster und Label. Was ist der Adjusted Rand Index? Nichts als RandIndex/(fast) Accuracy mit einer Korrektur, die Ihnen sagt, wie sich ein völlig zufälliger Classifier verhält. Es ist also buchstäblich eine Transformation der Genauigkeitsmetrik, normiert durch die Genauigkeit eines zufälligen Klassifikators.

nehmen diese „kleine Unterschiede“ einfach in Betracht der Tat hat das Clustering einige zusätzliche Eigenschaften wie:

  • Anzahl von Clustern (Etiketten) wird Ihnen eine Korrektur nehmen nicht gegeben a priori
  • müssen mit triviale Modelle, die leicht schwer sein könnte, um herauszufinden, (für die Einstufung ist es in der Regel sehr einfach zu sagen, was die Genauigkeit der trivialen Modell ist)

Vor allem die ersten Teils Angelegenheiten betrachten Clustering:

clustering [o o o o][o o o o][o o o o ] 
truth  [o o o o o o o o][o o o o ] 

Die einzige "schlechte Sache", die passiert ist, dass wir eine Klasse in 2 Teile aufgeteilt haben. Wenn wir Genauigkeit verwenden wir 75% erhalten (da die eine Hälfte wird einfach als „schlecht“), aber wenn man bedenkt rand Index nehmen, wird es tatsächlich viel höhere Punktzahl zuweisen als für:

clustering [o][o][o][o][o o o o][o o o o ] 
truth  [o o o o o o o o][o o o o ] 

, die mit Genauigkeit würde auch Ausbeute 75%. Und ich würde argumentieren, dass das erste Clustering tatsächlich besser ist als das zweite. Mit anderen Worten, diese Metriken sind eng mit den klassischen Klassifikationsmetriken verwandt, sie führen einfach zusätzliche Aromastoffe ein, um zwischen (größtenteils) Clusterings mit unterschiedlicher Anzahl von Clustern zu unterscheiden. Der Hauptgrund hier ist, dass in Clustering Sie Struktur kümmern, nicht punktweise Etiketten.

+0

Vielen Dank für Ihre Erklärung. –

Verwandte Themen