2010-03-17 18 views
8

Ich interessiere mich für Kmeans Clustering auf einer Liste von Wörtern mit dem Abstand messen ist Leveshtein.Python KMeans Clustering Worte

1) Ich weiß, dass es viele Frameworks gibt, einschließlich scipy und orange, die eine kmeans Implementierung hat. Allerdings benötigen sie alle eine Art Vektor als die Daten, die mir nicht wirklich passen.

2) Ich brauche eine gute Cluster-Implementierung. Ich schaute auf Python-Clustering und erkannte, dass es nicht a) die Summe aller Entfernungen zu jedem Schwerpunkt zurückgibt, und b) es keine Art von Iterationslimit oder Cut-off hat, was die Qualität des Clusterings sicherstellt. python-clustering und der Clustering-Algorithmus auf daniweb funktionieren nicht wirklich für mich.

Kann mir jemand eine gute lib finden? Google war nicht mein Freund

+0

Ich würde genau das Gleiche brauchen. Hast du seitdem etwas gefunden? – Jabba

Antwort

0

Nicht wirklich eine Antwort auf Ihre spezifische Frage, aber ich empfehle einen Blick auf "Programming Collective Intelligence". Am Ende jedes Kapitels, z. B. Clustering, wandert es davon ab, die besten Lektüre zu diesem Thema zu beschreiben.

1

Ja, ich denke, es gibt keine gute Implementierung, was ich brauche.

Ich habe einige verrückte Anforderungen, wie Entfernung Caching usw.

Also ich denke, ich werde nur meine eigene lib schreiben und es als GPLv3 bald freigeben.

+1

Irgendwelche Updates dazu? Danke –

0

Vielleicht werfen Sie einen Blick auf Weka. Es ist eine Java-Bibliothek mit einigen unüberwachten Lernimplementierungen und netten Visualisierungstools. Es ist eine Weile her, seit ich es benutzt habe, nicht sicher, ob es für eine reale Produktionsumgebung geeignet ist, aber definitiv ein guter Ausgangspunkt.

Verwandte Themen