Der Artikel zu DBSCAN "https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf" erläutert, dass der Wert für minpts für alle Datenmengen, für die der DBSCAN zum Clustering der Datenpunkte verwendet wird, 4 sein muss. Gibt es die besten Ergebnisse für jeden Eps-Wert?Ist minpts = 4 die beste Einstellung für jedes Dataset, das den DBSCAN-Algorithmus für das Clustering verwendet?
Antwort
In späteren Arbeiten schlagen die Autoren vor, standardmäßig minPts = 2 * dim zu verwenden.
J. Sander, M. Ester, H.-P. Kriegel und X. Xu. 1998.
Dichte-basierte Clustering in Spatial-Datenbanken:
Der Algorithmus GDBSCAN und seine Anwendungen.
Data Mining und Knowledge Discovery 2, 2 (1998), 169-194.
http://dx.doi.org/10.1023/A:1009745219419
Wenn Sie Duplikate haben, verwenden Sie einen größeren Wert: "Unsere Experimente zeigen, dass dieser Wert auch für Datenbanken D arbeitet, wo jeder Punkt nur einmal auftritt, das heißt, wenn D wirklich eine Menge von Punkten ist
Kleinere Werte sind normalerweise recheneffizienter. Halten Sie minPts also klein, aber nicht zu klein.
Immer studieren Sie Ihr Ergebnis. Benutze es niemals ohne doppelte Kontrolle.
Es gibt nicht so etwas wie "immer am besten". IIRC die Autoren vorgeschlagen, diesen Wert zuerst zu versuchen. Es bedeutet nicht, dass Sie manchmal andere Werte nicht versuchen sollten. Ich beginne normalerweise mit minpts = 10 ...
Auch müssen Sie noch epsilon variieren. Es ist wahrscheinlich wichtiger, Epsilon richtig zu wählen. Die zwei Parameter sind nicht unabhängig. Das Erhöhen der Anzahl kann bedeuten, dass Sie benötigen, um Epsilon zu erhöhen und umgekehrt.
- 1. Ist das Ausgabe-Dataset wirklich wichtig für den HDInsightHive-Aktivitätstyp?
- 2. das beste Werkzeug für den Countdown?
- 3. Was ist das beste Zahlungsgateway für ActiveMerchant?
- 4. Was ist das beste Datenzugriffsparadigma für Skalierbarkeit?
- 5. Welches ist das beste PHP-Framework für den Anfang?
- 6. Was ist das BOOL * stop Argument für enumerateObjectsUsingBlock: verwendet für?
- 7. Was ist das beste ORM für DDD?
- 8. Das beste Knotenmodul für das XML-Parsing
- 9. Was ist das beste .NET-Framework für die Spieleentwicklung?
- 10. Was ist die beste Vorgehensweise für eine hierarchische Zustandsmaschine, die das Zustandsmuster verwendet?
- 11. Was ist das beste Dateiformat für die Konfigurationsdatei?
- 12. Ist System.currentTimeMillis() das beste Maß für die Zeitleistung in Java?
- 13. Was ist das beste Datenbankzugriffsmuster für die Testbarkeit?
- 14. DBSCAN vs OPTICS für automatische Clustering
- 15. Was ist das beste BDD-Framework für die Arbeit mit ASP.NET MVC 2 + C# 4?
- 16. Ist das Maven Repository für Hibernatspatial Version 4 down?
- 17. Vorbereitung der Daten für die Verwendung Clustering
- 18. Was ist die beste Problemumgehung für das Zeitlimit für die ASP.NET-Formularauthentifizierung beim Verwenden der Platzhalterzuordnung?
- 19. Was ist das beste Datenbank-Design für tausend Zeilen
- 20. Der beste Typ für das JPA-Versionsfeld für optimistisches Sperren
- 21. jQuery jedes div für das erste Level
- 22. Was ist das beste Tabellenformat für eine hohe Einfügung?
- 23. Was ist das beste Design für diese Datenbanktabellen?
- 24. Ist soapUI das beste Testwerkzeug/Client/Framework für Webservices?
- 25. Wie funktioniert das DB-Clustering?
- 26. Was ist das beste Designmuster für eine App?
- 27. Das beste Werkzeug für Microsoft Azure-Diagnose für .net Protokollierung
- 28. das beste Werkzeug für diesen Fall?
- 29. Was ist die Laderbestellung für das Webpack?
- 30. Was ist das beste Linux-Dateisystem für MySQL (InnoDB)?