Ich habe einen ziemlich großen Datensatz mit rein kategorischen Daten. Anzahl der Datenzeilen (Stichproben) beträgt über 30.000.000. Attribute wurden auf 4 (Spalten) reduziert und alle von ihnen (Attribute) sind kategorisch, wobei einer von ihnen fast 50.000 Level hat!Clara_Medoids mit großem Datensatz von kategorialen Daten mit vielen Ebenen in R
Ich versuche, meine Daten vor der weiteren Verarbeitung zu clustern. Aufgrund der großen Datenmenge ist es jedoch nicht möglich, die meisten Clustering-Algorithmen zu verwenden. Ich habe Clara_Medoids vom ClusterR-Paket verwendet, um das Clustering zu testen. Das Problem, vor dem ich stehe, ist, dass das Ausführen des Codes mir einen Fehler gibt, den ich nicht lösen kann.
Code:
Cmediods_5 <- ClusterR::Clara_Medoids(MyData, clusters = 5, samples = 3, sample_size = 0.0005, distance_metric = "simple_matching_coefficient")
und das ist der Fehler, den ich erhalten:
Fehler in check_NaN_Inf (Daten): Nicht mit angeforderten Typ kompatibel: [type = Charakter; Ziel = doppelt].
Ich habe das Gefühl, dieser Fehler aufgrund der Tatsache ist, dass ich den „simple_matching_coefficient“ Distanzmetrik bin mit aber ich sehe keine andere praktikable Option, da meine Daten rein kategorische ist. Gibt es sowieso eine Umgehung des Problems mit dem Datentyp, damit dieser Algorithmus ordnungsgemäß funktioniert? Offensichtlich möchte ich keine Dummy-Variablen erstellen, denn wie ich bereits erwähnt habe, hat eines der Attribute ungefähr 50.000 Stufen!
Die Optionen für Clara_Medoids Funktion Abstandsmetriken sind: euklidischen, manhattan, Tschebyscheff, canberra, braycurtis, pearson_correlation, simple_matching_coefficient, Minkowski, Hamming, jaccard_coefficient, Rao_coefficient, Mahalanobis
Leider ist es nicht gower Abstand hat sonst wäre das meine Wahl gewesen.
Zuerst mit einem * Sample * arbeiten und dann vergrößern. Mit Umarmungsdaten zu arbeiten, nur um herauszufinden, was nicht funktioniert, ist Zeitverschwendung. –