-3

Ich habe mit dem K-Means-Clustering-Algorithmus experimentiert. Ich habe ein Dataset von Filmkritiken, mit denen ich fiedle, versuche, sie mit Features, die ich manuell (gut, programmatisch) definiert. Ich kam zu dem Schluss, dass es unmöglich ist, den Wert von k vor dem Clustering im Voraus zu kennen, und ich bin mir nicht sicher, wie viele Cluster ich haben möchte. Ich dachte, ich könnte nur die Cluster erhalten und manuell die zuvor unbeobachtete Ähnlichkeit der Entitäten im selben Cluster beobachten.Wie kann man Cluster-Qualität untersuchen?

Meine Fragen sind:

  1. Werden die Elemente der gleichen Cluster wirklich zusammenhängen?

  2. Wird die "Qualität" des Clusterns in jedem Cluster gleich sein? Wie verifiziere ich es?

Antwort

0

über Ihre erste Frage, es ist nicht wirklich eine gute Frage bro, weil unsere Daten nicht Etikett haben wir Clustering-Algorithmus verwenden, um es zu markieren (Sie wissen schon nach Clustering haben wir Cluster 1,2, .. . oder a, b, c oder was auch immer beschriften Sie zuweisen möchten)

und Ihre zweite Frage:

nach Clustering Ihre Daten dort ein gewisses Maß ist, dass Sie herausfinden können, wie gut Sie führen Sie Ihre Clustering Schau dir das an

http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/ 

oder der einfache Weg, um Ihr Ergebnis zu analysieren, ist Entropiemessung für jeden Cluster zu berechnen, je weniger das Entropiemaß ist, desto besser ist Ihr Ergebnis (Sie erhalten die beste Entropie, wenn die Anzahl Ihres Clusters gleich der Anzahl Ihrer Datenpunkte ist, denken Sie darüber hinaus) stellen Sie aus der informationstheoretischen Perspektive das Entropie - Maß dar, wie viel Information in den Datenpunkten gespeichert ist, die Sie betrachten (die gleichen Daten desto weniger können sie Informationen tragen, denken Sie an das.) DC < 1> Signal es ist immer auf < (niedrigste Entropie)>, es ist das einzige, was wir daraus bekommen können, jetzt denken Sie über dieses Signal < 01011110 ...> je mehr es abweichen kann, desto mehr Informationen können Sie daraus erhalten < (höhere Entropie)> ...) zurück t o Unternehmen, jetzt nach dem Clustering wollen wir, dass unsere Datenpunkte in jedem Cluster ähnlich sind. Je ähnlicher unsere Datenpunkte in jedem Cluster sind, desto weniger ist das Entropiemaß. viel Glück, Bruder!

Verwandte Themen