2016-04-21 12 views
-1

Ich versuche, ein Beispiel zu finden, um mir zu helfen, einige Textdaten zu bündeln, die ich habe. Die Daten werden in der Form:Python k-bedeutet Clustering-Text

A,B,3 
C,D,5 
A,D,57 

Die ersten beiden Einträge die Mitglieder eines Paares sind, die Anzahl ist, wie oft dieses Paar in der Datenmenge auftritt. Ich habe über 200.000 einzigartige Paare.

Irgendwelche Tipps? Vielen Dank!!

+1

Was genau ist Ihre Frage? Was hast du probiert? – mprat

+0

Ziemlich viel versucht, ein Stück Code zu finden, der etwas ähnlich dem tut, was ich versuche zu tun. Alles, was ich finde, ist Code, der Dokumente gruppiert, nicht Paare. Die Sache ist, die Beschreibung/Anforderungen, die ich erhielt, könnte falsch sein. Danke für die Antwort! – boneless

Antwort

0

Verwenden Sie keine k-Mittel für solche Daten.

Es wird nicht funktionieren.

Was Sie haben, ist eine Ähnlichkeitsmatrix, nicht kontinuierliche Vektoren wie für k-Mittel benötigt. Sie können versuchen, hierarchische Clustering (mit einer spärlichen Ähnlichkeit, nicht eine Entfernung; nein, ich werde nicht den Code für Sie schreiben).

+0

Vielen Dank! Ich bitte niemanden darum, mir einen Code zu schreiben, aber ich hatte Probleme, etwas zu finden, das dem ähnlich ist, was ich versuche zu tun. Dies macht deutlich, warum das so ist. Vielen Dank. – boneless