2017-11-15 1 views
0

Kürzlich wählte ich DBSCAN Clustering über einen öffentlichen Datensatz. Aber die Parameter Eps und Minpts sind so empfindlich, dass es ziemlich schwierig ist, gute Parameterwerte mit guter Leistung über den gesamten Datensatz zu erhalten. Beim Einstellen der Parameter von DBSCAN scheint es übertrieben zu sein. Ich weiß, dass EM-Algorithmen verwendet werden können, um Parameter von GMM-Modellen abzustimmen. Ich frage mich, ob es möglich ist, EM-Algorithmen in DBSCAN zu verwenden. Ich brauche einige Ideen oder Vorschläge dazu. Jeder hat es schon einmal versucht?Wie benutzt man EM-Algorithmen, um Parameter (eps, minpts) von DBSCAN über einen Datensatz zu bestimmen?

+0

Versuchen Sie stattdessen OPTICS und HDBSCAN *. Ich denke nicht, EM wird dich überall hinbringen. –

+0

Vielen Dank für Ihren Vorschlag. Ich werde später HDBSCAN versuchen. – ZHENGZhuang

Antwort

0

EM-Algorithmen mit Gaussian Mixture Models funktionieren gut, weil das GMM ein probabilistisches Modell ist. Es ergibt eine Wahrscheinlichkeit für jeden Punkt, und Sie wissen, wie man Modellparameter ableitet, um die Wahrscheinlichkeiten zu maximieren.

Ich glaube nicht, dass Sie dies sinnvoll auf Flagge DBSCAN anwenden können. In diesem Verbindungsmodell gibt es keine "Wahrscheinlichkeit". Verbunden zu sein ist eine binäre Eigenschaft, und wenn Sie versuchen, dies zu maximieren, wird es einfach alles in Verbindung bringen, d.h. Epsilon = Inifnität.

+0

gute Antwort! Könnten Sie bitte kurz erklären, was bedeutet "ein Verbundenheitsmodell" und "verbunden sein ist eine binäre Eigenschaft"? – ZHENGZhuang

+0

Siehe die DBSCAN-Papiere. –

Verwandte Themen