Kürzlich wählte ich DBSCAN Clustering über einen öffentlichen Datensatz. Aber die Parameter Eps und Minpts sind so empfindlich, dass es ziemlich schwierig ist, gute Parameterwerte mit guter Leistung über den gesamten Datensatz zu erhalten. Beim Einstellen der Parameter von DBSCAN scheint es übertrieben zu sein. Ich weiß, dass EM-Algorithmen verwendet werden können, um Parameter von GMM-Modellen abzustimmen. Ich frage mich, ob es möglich ist, EM-Algorithmen in DBSCAN zu verwenden. Ich brauche einige Ideen oder Vorschläge dazu. Jeder hat es schon einmal versucht?Wie benutzt man EM-Algorithmen, um Parameter (eps, minpts) von DBSCAN über einen Datensatz zu bestimmen?
Antwort
EM-Algorithmen mit Gaussian Mixture Models funktionieren gut, weil das GMM ein probabilistisches Modell ist. Es ergibt eine Wahrscheinlichkeit für jeden Punkt, und Sie wissen, wie man Modellparameter ableitet, um die Wahrscheinlichkeiten zu maximieren.
Ich glaube nicht, dass Sie dies sinnvoll auf Flagge DBSCAN anwenden können. In diesem Verbindungsmodell gibt es keine "Wahrscheinlichkeit". Verbunden zu sein ist eine binäre Eigenschaft, und wenn Sie versuchen, dies zu maximieren, wird es einfach alles in Verbindung bringen, d.h. Epsilon = Inifnität.
gute Antwort! Könnten Sie bitte kurz erklären, was bedeutet "ein Verbundenheitsmodell" und "verbunden sein ist eine binäre Eigenschaft"? – ZHENGZhuang
Siehe die DBSCAN-Papiere. –
- 1. Wie kann ich eps und minPts (zwei Parameter für DBSCAN-Algorithmus) für effiziente Ergebnisse wählen?
- 2. Extract Kernpunkte von DBSCAN in R
- 3. DBSCAN vs OPTICS für automatische Clustering
- 4. DBSCAN eine Dimension, Kernpunkte finden
- 5. Wie finde ich den optimalen Punkt für DBSCAN() Parameter in R
- 6. So schätzen Sie die eps mit Hilfe des Abstands-Plots in DBSCAN
- 7. Die Parameter von DBSCAN Algo für Tweet Clustering
- 8. Wie man einen Knopf benutzt, um in Schienen zu setzen?
- 9. Wie die ursprünglichen Datenpunkte, die zu jedem Cluster gehören, aus dem dbscan-Algorithmus mit R
- 10. Pythonic-Methode, um Mittelwerte über einen großen Datensatz zu bewerten
- 11. Ist minpts = 4 die beste Einstellung für jedes Dataset, das den DBSCAN-Algorithmus für das Clustering verwendet?
- 12. Eingabematrix und Parameter für den DBSCAN-Algorithmus von scikit-learn
- 13. Mongoose - wie benutzt man Schema Parameter?
- 14. Wie benutzt man Schema.org für einen Überblick über Produktkategorien?
- 15. Python OOP: Wie benutzt man einen Flag-Parameter, um auf Methoden zuzugreifen?
- 16. Wie sample_weights in sklearn.cluster DBSCAN zuweisen?
- 17. Wie man Ameise benutzt, um mit Android
- 18. Wie man GDAL's ogr2ogr benutzt um Bounding Box zu erstellen
- 19. Wie benutzt man Magick ++, um YUYV in RGB zu konvertieren?
- 20. Wie benutzt man exec() um mehr als einen Wert anzuzeigen?
- 21. AngularJS- Wie man $ http.post benutzt, um mehrere Parameter an eine Serverklasse zu übergeben
- 22. Wie man Sieb benutzt, um HTML email zu senden
- 23. Wie man link_to benutzt, um zu einer Subdomain zu gehen
- 24. SQL-Abfrage, um Daten von Datensatz über
- 25. Wie man Paste benutzt, um Formel zu erhalten
- 26. Wie man einen Datensatz von Bildern ausbildet, um tensorflow zu trainieren und zu testen
- 27. wie man hystrix benutzt um alle Microservices zu überwachen
- 28. Wie zu bestimmen, am meisten beeinflussten Parameter in Dataset
- 29. Wie benutzt man jQuery um eine CSS Regel zu deaktivieren?
- 30. Wie man eine Zeit benutzt, um Code zu aktualisieren
Versuchen Sie stattdessen OPTICS und HDBSCAN *. Ich denke nicht, EM wird dich überall hinbringen. –
Vielen Dank für Ihren Vorschlag. Ich werde später HDBSCAN versuchen. – ZHENGZhuang