2016-06-27 4 views
0

Ich weiß, dass DBSCAN zwei Parameter (MinPts und Eps) benötigt. Ich bin jedoch verwirrt darüber, welche Parameter für OPTICS benötigt werden, da einige Quellen sagen, dass es eps benötigt, während andere sagen, dass es nur minPts benötigt.DBSCAN vs OPTICS für automatische Clustering

Welcher Algorithmus wäre besser zu verwenden, wenn ich automatisch die Parameterwerte ermitteln würde, die Ausreißer am besten verwerfen würden?

Antwort

3

Gemäß the original paper sind sowohl minPts als auch Eps erforderlich. Die Quellen, die sagen, dass Eps nicht benötigt wird, verwenden wahrscheinlich eine Methode, um automatisch einen guten Wert dafür zu bestimmen. Allerdings ist Eps nur enthalten, um die Laufzeit des Algorithmus zu reduzieren. Es ist nicht notwendig.

In Bezug darauf, was am besten für die Ausreißerentfernung geeignet ist, gibt es keinen besseren Weg, als Ihre Entscheidung mit Zahlen zu unterstützen: Nehmen Sie einen Datensatz und beschriften Sie seine Ausreißer und führen Sie beide Algorithmen dagegen aus. Verwenden Sie eine Art von Leistungsmessung für die Cluster (AUC, F-Score usw.), um die beste auszuwählen.

+0

Eines der Konzepte, die ich für den OPTICS-Algorithmus verwirrt habe, ist, wie man automatisch die Erreichbarkeit zur Minimierung von Rauschen bestimmt? – user3315340

+0

Das Papier definiert zwei Entfernungen, die für die Entfernung von Rauschen relevant sind: Die Kernentfernung eines Punkts (Objekts) p, die Entfernung zwischen ihm und dem nächstgelegenen Punkt, der die Anzahl der vom Raum eingeschlossenen Punkte zu minPts zulässt. Dann gibt es die Erreichbarkeitsdistanz von zwei Punkten p und o (o ist der Ursprung des Clusters), welches das Maximum entweder der Kernentfernung von o oder der Entfernung zwischen o und p ist (d (o, p) kann kleiner sein als der Kernabstand von o). Siehe Abbildung 4 des Papiers für eine Illustration. – Dylon

+0

Ein Objekt wird als Rauschen klassifiziert, wenn für einige Eps <= Eps die Erreichbarkeitsdistanz> Eps und seine Kerndistanz> Eps ist. Abbildung 8 des Papiers beschreibt den Algorithmus dafür im Detail. – Dylon

1

OPTICS kann mit eps = unendlich ausgeführt werden. Aber dann ist es O (n^2) Komplexität. (Angenommen, Sie haben eine Implementierung, die tatsächlich Indizes für die Beschleunigung verwendet.)

Aber OPTICS hat kein so gut definiertes Konzept von Rauschen wie DBSCAN. Der nächste Wert, den Sie erhalten können, besteht darin, die oberste Ebene der Clusterhierarchie (d. H. Den vollständigen Datensatz) abzüglich aller Elemente in einem Cluster darunter zu verwenden. Aber bei einem hierarchischen Clustering können Sie "Rauschen" auf mehreren Ebenen in der Hierarchie haben, so dass das Konzept des Rauschens hier wirklich nicht mehr funktioniert.

Verwandte Themen