2016-11-03 3 views
0

Ich versuche, k-bedeutet für Text-Clustering, speziell englische Sätze zu implementieren. Bis jetzt bin ich an dem Punkt, wo ich für jedes Dokument (Satz) eine Term-Frequenz-Matrix habe. Ich bin ein wenig verwirrt über die tatsächliche Implementierung von k-means auf Textdaten. Hier ist meine Vermutung, wie es funktionieren sollte.k-bedeutet für Text-Clustering

  1. Abbildung aus der Anzahl der eindeutigen Wörter in allen Sätzen (eine große Zahl, nennen es n).

  2. erstellen kn Vektoren (Cluster) und in den Werten der k Vektoren mit einigen Zufallszahlen füllen (wie kann ich entscheiden, was die Grenzen für diese Zahlen?)

  3. Bestimmen Sie den euklidischen Abstand von jeder der q Sätze zu dem Zufall k Cluster neu positioniert Cluster usw. (Wenn n sehr groß, wie die englische Sprache ist, würde den euklidischen Abstand für diese Vektoren nicht die Berechnung sehr teuer sein?)

Danke für jede Einsicht!

Antwort

1

Dies ist ein bisschen lang für einen Kommentar.

Wenn Sie eine Dokument-Term-Matrix haben, dann finden Sie die Hauptkomponenten (der Kovarianz-Matrix). Ermitteln Sie die Koeffizienten der Originaldaten im Hauptkomponentenraum. In diesem Bereich können Sie k-Means-Clustering durchführen.

Mit Textdaten benötigen Sie in der Regel eine Reihe von Dimensionen - 20, 50, 100 oder sogar mehr. Außerdem würde ich Gaussian-Mischmodelle/Expectation-Maximierung-Clustering anstelle von K-Means empfehlen, aber das ist eine andere Geschichte.

1

hier eine etwas alte Frage wieder zu beleben, aber es lohnt sich die Verknüpfung der beiden ...

Im Allgemeinen würden Sie eine Art verwenden lokal empfindlichen Hashing statt auf der Frequenz von Wort Auftreten verlassen. In beiden Fällen ist das manuelle Zusammenstellen der Feature-Matrix ein großer Aufwand.

Diese SO answer gibt Ihnen eine Anleitung zum Erstellen dieser Feature-Matrix aus einer Liste von Dokumenten, mithilfe von Scikit-lernen und erklären die Schritte. Ich denke, es wird Ihnen helfen, die erforderliche Abfolge von Schritten zu zeigen.

Verwandte Themen