2017-11-13 2 views
0

Es scheint, als ob der scigitlearns f1_score avg micro/macro (http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html) auf Multi-Label-Datenklassifizierer basiert, aber ich frage mich, ob das gleiche für Multi-Label-Clustering verwendet werden könnte?Kann scikits fs_score avg macro/micro für Multi-Label-Clustering verwendet werden?

Die Daten, mit denen ich arbeite, werden mit Scikit's Kmeans auf 50.000 Zeitreihen (ts) geclustert. Also end ich mit Clustern in der Form: c1 {ts_1, ts_2 ...}, c2 {ts_20, ts_21 ...} etc.

Jede Zeitreihe kann eine zu viele Etiketten haben, die ich gerne hätte Verwenden Sie als goldenen Standard für die f1 avg Mikro-und Makro-Scores. Die Zeitreihe eines Clusters kann dann durch seine Label (L) ersetzt werden: c1 {(L_1, L_2), (L_2), (L_2), (L_3, L_4, L_5) ...}

Kann der f1 avg Mikro- und Makro-Scores werden auf Clustering eines solchen Datensatzes angewendet, oder gibt es andere Punkte, die ich stattdessen betrachten sollte?

Antwort

0

Nein. Da die Clusterings eigene "Labels" verwenden (oft 0 ... k), gibt es keine 1 auf 1-Übereinstimmung mit Klassifikationslabels.

Clustering ist nur noch Klassifizierung. Der Begriff "unüberwachte Klassifizierung" ist sehr irreführend, da die Unterschiede durchaus erheblich sein können. Aus diesem Grund scheint niemand in Clustering diesen Begriff zu verwenden.

Verwenden Sie stattdessen eine der etablierten Cluster Bewertungsmetriken.

Verwandte Themen