2017-12-14 4 views
0

Während der Arbeit an einem Dataset habe ich k-Means Clustering und ich möchte die Medianwerte der Features/Variablen zu erkunden.Clusters Features Medianwerte mit Python

data = pd.DataFrame({'Monetary': rfm_m_log,'Recency': rfm_r_log,'Frequency': rfm_f_log}) 
matrix = data.as_matrix()  
kmeans = KMeans(init='k-means++', n_clusters = 2, n_init=30) 
kmeans.fit(matrix) 
clusters_customers = kmeans.predict(matrix) 

Wie die Medianwert von Währungs-, Aktualität und Häufigkeit in jedem Cluster drucken? (Cluster 1 und Cluster 2)

+0

Könnte das Clusterzentrum sinnvoll sein, eher als der Medianwert? – ncfirth

+0

Ja, es kann nützlich sein – SarahData

Antwort

0

Es kann entsprechend durch Schneiden des Datum-Rahmens durchgeführt werden, um die tatsächlichen Klassifikationen:

# class 0 median of the Monetary column 
data.iloc[np.argwhere(clusters_customers == 0).ravel()]['Monetary'].median() 

# class 1 median of the Monetary column 
data.iloc[np.argwhere(clusters_customers == 1).ravel()]['Monetary'].median() 
Verwandte Themen