2016-05-04 15 views
-1

Ich möchte Cluster von Variablen in einem Pandas-Datenrahmen wie unten angegeben machen.Variable Clustering in Python

Ich habe 900 Spalten und 50000 Datensätze.

Ich möchte 50 Cluster aus 900 Spalten erstellen.

Dann wollen Sie die Spalten in jedem Cluster herausfinden.

Bitte helfen Sie mir, wenn es eine Möglichkeit gibt, dies in Python zu tun.

Dank

+0

Können Sie hinzufügen [Minimal, Complete, und prüfbare Beispiel] (http://stackoverflow.com/help/mcve)? – jezrael

+1

Stack Overflow ist eine Community zum Debuggen oder Verbessern eines vorhandenen Codes. Nicht zu codieren, was Sie selbst tun sollten. Sehen Sie sich das scikit-learn-Paket von python für Ihr Problem an (und wenn Sie Probleme haben, einen Code arbeiten zu lassen, kommen Sie hier zurück und wir helfen Ihnen gerne weiter!) – ysearka

Antwort

1

Ich bin kein Experte von Clustering in Python, aber ich schlage vor, Sie zunächst zu entscheiden, welcher Algorithmus schätzen Sie Ihre Cluster verwenden möchten, und suchen, es zu tun für ein Beispiel in Python dann nur um .

(Werfen Sie einen Blick hier: http://scikit-learn.org/stable/modules/clustering.html)

+0

Ich habe versucht, für k bedeutet. es arbeitet auf records und nicht auf spalten, also transponiere ich meine datafram, konvertiere sie in array und dann matrix und verwende dann k means. dataset_array = cluster_inputt.values ​​aus sklearn.cluster import KMeans labels = list (km.labels_) len (labels) km = KMeans (n_clusters = 50) km.fit (matt), aber nicht in der Lage, das Ergebnis mit Spalten abzubilden und ich bekomme kein gutes Ergebnis im Vergleich zu sas –

+0

Ich möchte Divisive Hierarchie Clustering tun, aber das ist nicht in Python –

+0

Ich bin immer noch kein Experte, aber ich fand diese http://docs.scipy.org/doc/scipy/reference /cluster.hierarchy.html ist es nicht hilfreich für Ihr Problem? Oder ist Ihre Idee, etwas wie ein Dendrogramm etc. zu bekommen? – LeoCella