Welcher Filter in weka zur Verwendung von k bedeutet Clustering auf kategorischen Daten?

Welchen Vorverarbeitungsfilter ich in weka verwenden sollte, um k anzuwenden, bedeutet, dass ich für die Datensätze mit Attributen arbeite, die nicht quantitativ, sondern kategorisch sind. Zum Beispiel drei Datensätze mit nicht quantitativen Attributen des Einkommensniveaus mit Werten von {niedrig, mittel, hoch}, verheiratet mit Werten von {ja, nein} und Aufenthaltsstatus mit Werten von {Alabama, Alaska, ..., Wyoming}.Welcher Filter in weka zur Verwendung von k bedeutet Clustering auf kategorischen Daten?

Quelle

2016-08-12 Parisan

Viele Leute verwenden eine heiße Codierung für diese.

Die Ergebnisse sind in der Regel eher schlecht, weil k-means für kontinuierliche Variablen ausgelegt ist. Die resultierenden Cluster-Zentren sind nicht länger binär und können nicht gut auf kategoriale Werte abgebildet werden (was keine Überraschung ist, da k-means alles über bedeutet, aber was ist der Mittelwert von "Apfel", "Banane" und "Orange")?

Normalerweise erhalten Sie viel aussagekräftigere Ergebnisse, wenn Sie stattdessen nach häufigen itemsets anstelle von k-means Zentren suchen.

Quelle

2016-08-12 20:39:56

Welcher Filter in weka zur Verwendung von k bedeutet Clustering auf kategorischen Daten?

Antwort

Verwandte Themen