2017-06-12 5 views
0

Ich baue ein k-Means-Clustering-Modell in Python. Ich bin mir jedoch nicht sicher, wie die Clusterschwerpunkte gespeichert und wie sie für zukünftige Zwecke verwendet werden können. Ich möchte immer die gleichen Cluster-IDs zuweisen, wenn ich das Modell später verwende. Ich würde mich freuen, wenn jemand einen klaren Code hat, um zu zeigen, wie das geht.So speichern Sie Cluster-Seeds für einen weiteren Bewertungszweck

Update:

Hallo @HannounYassir, sicher, sorry ich das vorher getan haben sollte:

Stellen Sie sich meine Dataset-Name ist data_clean und alle Variablen sind standardisiert und vor der Hand gereinigt.

# define the cluster variables 

cluster_vars=data_clean[['A' , 'B' , 'C']] 

# Interpret 4 cluster solution for the data 

model_4=KMeans(n_clusters=4, random_state=30) 
model_4.fit(cluster_vars_copy) 
clusassign=model_4.predict(cluster_vars_copy) 

# Score the customers from last year by using the model created. Imagine my new dataset is clustervars_new 

model_4.fit_predict(clustervars_new) 
clusassign_new=model_4.fit_predict(clustervars_new)        

Ich bin 100% sicher, dass ich etwas in der Wertungsphase bin fehlt, da ich nicht die Schwer Samen gespeichert haben. Also, es könnte das gleiche Modell verwenden, aber ich bin besorgt, dass die Cluster-IDs, die zugewiesen werden, völlig zufällig sein werden als das ursprüngliche Dataset

+0

Können Sie irgendeinen Versuch posten, den Sie gemacht haben? –

+0

Hi @HannounYassir, Ich habe meine ursprüngliche Post mit meinem Versuch bearbeitet –

+0

Warum sind Sie besorgt? Warum benutzt du 'fit_predict' anstatt' predicate'? –

Antwort

0

Verwenden Sie nicht fit_predict.

Es lernt zuerst ein neues Clustering, dann "vorhersagt".

Aber Sie möchten predict mit dem alten Clustering.

Ich glaube, Wiederverwendung der Klassifizierung API von fit/predict/fit_predict war eine ziemlich schlechte Design-Entscheidung in Sklearn. Zur Klassifizierung ist dies praktisch, aber Clustering ist keine Klassifizierung und die meisten Cluster-Algorithmen können überhaupt keine neuen Daten vorhersagen.

Verwandte Themen