2017-02-04 6 views
0

Ich versuche Cluster-Algorithmus auf meinem Dataset auszuführen. Meine Datenmenge besteht aus Paketen (Quelle IP, Ziel, Port, Klassenlabel). Ich möchte diese Daten von nominalen zu numerischen Daten konvertieren. Was sind die richtigen Techniken, um diese Daten zu konvertieren?Konvertieren von nominalen in numerische Daten?

Antwort

0

Der übliche Ansatz besteht darin, eine heiße Codierung durchzuführen. Während dies offensichtlich die Daten numerisch codiert, kommt es mit mehreren Problemen.

  1. Erhöhte Dimensionalität. Dies führt oft zu Problemen bei der Skalierbarkeit und Diskriminierung (die Abstände zwischen den Punkten werden zu ähnlich)
  2. Normalisierungs- und Gewichtungsprobleme. Typische Normalisierungsstrategien wie Min-Max-Skalierung und Standardisierung funktionieren nicht wie gewünscht‘
  3. Correlated Attribute
  4. Umgang mit neuen Attributwerte
  5. Die Variablen diskret sein wird. Viele Algorithmen wie k-means erfordern kontinuierliche Attribute, um gut zu funktionieren.
  6. Interpretationsprobleme. Z.B. Ein Cluster-Zentrum wird oft nicht in einer sinnvollen Weise auf den ursprünglichen Raum abgebildet.
Verwandte Themen