2016-07-21 12 views
-1

Ich möchte Clustering auf einem Datensatz mit DBSCAN-Algorithmus durchführen. Das Problem ist, dass die Daten nominale Attribute wie Postleitzahl und Währung haben. Irgendeine Idee, wie man mit diesen Werten umgeht?Data Mining: Clustering von nominalen Attributen durch DBSCAN algo

+0

Überprüfen Sie diese [Frage] (http://stats.stackexchange.com/questions/130974/how-to-use-both-binary-and-continuous-variables-together-in-clustering) – Marcel10

Antwort

0

zwei Optionen:

  1. eine Abstandsfunktion benutzerdefinierte definieren, die diese Attribute Griffe nach Wunsch. Zum Beispiel mit Postleitzahlen, werden Sie nach Nähe suchen wollen.

  2. Verwenden Sie das verallgemeinerte DBSCAN, und definieren Sie ein benutzerdefiniertes Nachbarprädikat. Es könnte z.B. Postleitzahlen als Nachbarn und Attributwerte ähnlich sein.

Verwenden Sie keine Ein-Hot-Codierung für Postleitzahlen. Das macht nicht viel Sinn. Sie können auch die Hamming-Distanz für die kategorialen Attribute verwenden, was effizienter ist (siehe Option 1).

Verwandte Themen