Ich versuche, k-bedeutet für Text-Clustering, speziell englische Sätze zu implementieren. Bis jetzt bin ich an dem Punkt, wo ich für jedes Dokument (Satz) eine Term-Frequenz-Matrix habe. Ich bin ein wenig verwirrt über die tatsächliche Implementierung von k-means auf Textdaten. Hier ist meine Vermutung, wie es funktionieren sollte.k-bedeutet für Text-Clustering
Abbildung aus der Anzahl der eindeutigen Wörter in allen Sätzen (eine große Zahl, nennen es
n
).erstellen
k
n
Vektoren (Cluster) und in den Werten derk
Vektoren mit einigen Zufallszahlen füllen (wie kann ich entscheiden, was die Grenzen für diese Zahlen?)Bestimmen Sie den euklidischen Abstand von jeder der
q
Sätze zu dem Zufallk
Cluster neu positioniert Cluster usw. (Wennn
sehr groß, wie die englische Sprache ist, würde den euklidischen Abstand für diese Vektoren nicht die Berechnung sehr teuer sein?)
Danke für jede Einsicht!