2016-07-29 16 views
1

Ich bin neu bei ELKI und ich muss einige grundlegende Clustering eines Datensatzes, den ich bereits getestet und geclustert in Weka. Ich benutze die „GUI-Version“ und ich las das Tutorial die „Maus“ Analysieren von Daten festgelegt auf ELKI Website: http://elki.dbs.ifi.lmu.de/wiki/Tutorial#AnalyzingthemousedatasetELKI GUI keine Clustering-Ergebnisse für hierarchische Clustering

ich meine Daten-Set mit EM geclustert und erfolgreich visualisiert und gibt die Ergebnisse (aus dem Tutorial I hat nur den Parameter resultHandler geändert: ResultWriter). Die Ergebnisse, die ich im Ordner habe, sind: cluster.txt, cluster-evaluation.txt und settings.txt.

Ich habe Probleme mit den Ausgabeergebnissen für hierarchische Algorithmen (SLINK, CLINK, etc.). Die Ausgabe, die ich bekam, ist nur die settings.txt, aber ich brauche die cluster.txt.

Ich muss einige andere Parameter ändern, weil auf der Protokollansicht keine Fehler sind?

+0

Sie * Extrakt Did * Partitionen? Oder berechne nur die * Hierarchie *? Hierarchisches Clustering ist ein ** zweistufiger Prozess ** (wenn Sie "Cluster" und keinen Baum wollen) und Sie haben wahrscheinlich nur den ersten Schritt gemacht. Welche Parameter haben Sie verwendet? –

+0

@ Anony-Mousse Ich führe einfach die Aufgabe aus, um den CLINK-Algorithmus mit allen Standardeinstellungen zu berechnen. Gibt es eine Anleitung oder Anleitung für hierarchische Algorithmen oder Konfiguration von Parametern in der Hauptansicht? Edit: Per Auszug meinen Sie den Parameter _evaluator_ mit verschiedenen Optionen für die Extraktion? – dery143

+0

Es gibt einige Algorithmen in ELKI, um ein flaches Clustering (was Sie erwarten) aus der Hierarchie zu extrahieren. Ich kann mich im Moment nicht an die Namen erinnern, aber direkt neben CLINK? Ein einfacher Ansatz besteht darin, das Dendrogramm auf einen Schwellenwert zu reduzieren, aber ELKI hatte auch komplexere Methoden. –

Antwort

1

Um Partitionen aus einem hierarchischen Clustering-Ergebnis zu erhalten, müssen Sie auch eine Cluster-Extraktionsmethode angeben:

-algorithm clustering.hierarchical.extraction.HDBSCANHierarchyExtraction 
-algorithm CLINK 
-hdbscan.minclsize 50 

Bitte beachte, dass wir jetzt zwei-algorithm Parameter haben, und Reihenfolge ist wichtig. Der Extraktionsalgorithmus hat einen "verschachtelten" Algorithmusaufruf, um das tatsächliche hierarchische Clustering durchzuführen.

CLINK clustering result

Auf lange Sicht wollen wir einen Operator-basierten Ansatz (insbesondere für GUIs) bewegen. Für die Befehlszeile ist der geschachtelte Aufruf sicherer, da Sie nicht versuchen können, zu extrahieren, ohne ein hierarchisches Clustering auszuführen.

Was CLINK, die Cluster-Qualität in der Regel nicht so gut ist (es auch ist Reihenfolge abhängig, so die Daten schlurfend und mehrere Male ausgeführt werden unterschiedliche Ergebnisse). Ich würde AGNES oder Anderberg auch mit einer vollständigen Verbindung versuchen; AGNES ist immer O (n^3), Anderberg ist normalerweise in O (n^2) (nur der schlechteste Fall ist O (n^3)) und beide ergeben viel bessere Ergebnisse (es wird erwartet, dass sie die gleichen Ergebnisse mit Ausnahme von gebunden ergeben Entfernungen ist CLINK verschieden):

Complete-Link clustering with Anderberg algorithm