Ich möchte Clustering auf einem Datensatz mit DBSCAN-Algorithmus durchführen. Das Problem ist, dass die Daten nominale Attribute wie Postleitzahl und Währung haben. Irgendeine Idee, wie man mit diesen Werten umgeht?Data Mining: Clustering von nominalen Attributen durch DBSCAN algo
-1
A
Antwort
0
zwei Optionen:
eine Abstandsfunktion benutzerdefinierte definieren, die diese Attribute Griffe nach Wunsch. Zum Beispiel mit Postleitzahlen, werden Sie nach Nähe suchen wollen.
Verwenden Sie das verallgemeinerte DBSCAN, und definieren Sie ein benutzerdefiniertes Nachbarprädikat. Es könnte z.B. Postleitzahlen als Nachbarn und Attributwerte ähnlich sein.
Verwenden Sie keine Ein-Hot-Codierung für Postleitzahlen. Das macht nicht viel Sinn. Sie können auch die Hamming-Distanz für die kategorialen Attribute verwenden, was effizienter ist (siehe Option 1).
Verwandte Themen
- 1. Die Parameter von DBSCAN Algo für Tweet Clustering
- 2. Vergleich von Data Mining-Algorithmen
- 3. Fragen zu Clustering-Methoden
- 4. Google Data Mining-Tool
- 5. DBSCAN vs OPTICS für automatische Clustering
- 6. Wie bezieht sich BI auf Data Mining?
- 7. Groß Data Mining mit clojure
- 8. Qualitative Datenanalyse mit Data-Mining-Techniken
- 9. Data Mining Open-Source-Tools
- 10. Branchenbenchmarks zur Bewertung von Data-Mining-Tools
- 11. Open Source Data Mining Software
- 12. Data Mining-Engines und Frameworks?
- 13. Data Mining-Protokolle zum Lokalisieren eines Fehlers
- 14. Tools für Data Mining handgeschriebenen HTML
- 15. Web Scraping, Screen Scraping, Data Mining Tipps?
- 16. Clustering-Algorithmus mit diskreten und kontinuierlichen Attributen?
- 17. Twitter Data Mining: Degrees of Separation
- 18. Data Mining Stadt und Stadt Namen
- 19. Incremental Clustering mit ELKI
- 20. Eingabewerte für den DBSCAN-Algorithmus definieren
- 21. Clustering und Shared Data in Vert.x
- 22. Anzeige von Attributen einer has_many durch Verbindung
- 23. Was ist die beste Data-Mining-Methode für die Fahrzeugsuche?
- 24. SparkR - Erstellen und Testen DataFrames für Data Mining
- 25. Clustering großen Vektorraum
- 26. Business Intelligence: Data Mining mit MS SQL Server?
- 27. Was sind die Bootstrapped-Daten im Data Mining?
- 28. Wo kann ich Daten finden, um Data Mining-Techniken anzuwenden?
- 29. Informationen aus Daten abrufen - Data Mining praktische Techniken
- 30. Eingabematrix und Parameter für den DBSCAN-Algorithmus von scikit-learn
Überprüfen Sie diese [Frage] (http://stats.stackexchange.com/questions/130974/how-to-use-both-binary-and-continuous-variables-together-in-clustering) – Marcel10