Ich bin ein Neuling im Text Mining, hier ist meine Situation. Angenommen, ich habe eine Liste von Wörtern ['Auto', 'Hund', 'Welpe', 'Fahrzeug'], ich möchte Wörter in k Gruppen gruppieren, ich möchte die Ausgabe sein [['Auto', 'Fahrzeug "], [" Hund "," Welpe "]]. Ich berechne zuerst den Ähnlichkeits-Score jedes paarweisen Wortes, um eine 4x4-Matrix (in diesem Fall) M zu erhalten, wobei Mij der Ähnlichkeits-Score von Wort i und j ist. Nach der Umwandlung der Wörter in numerische Daten verwende ich verschiedene Clustering-Bibliothek (wie sklearn) oder implementieren Sie es selbst, um das Wort Cluster zu bekommen.Clustering Liste der Wörter in Python
Ich möchte wissen, macht dieser Ansatz Sinn? Außerdem, wie ermittle ich den Wert von k? Noch wichtiger, ich weiß, dass es verschiedene Clustering-Techniken gibt, ich denke darüber nach, ob ich k-means oder k-medoids für Word-Clustering verwenden soll.
Welche Art von Ähnlichkeit möchten Sie berechnen? Die Ähnlichkeit der Schriftzeichen (z. B. "Rock" sehr ähnlich zu "Uhr") oder die Ähnlichkeit der Bedeutung des Wortes (z. B. "Hund" sehr ähnlich wie "Welpe")? –
@Marcel P wahrscheinlich die Ähnlichkeit der Bedeutung der Wörter –
Und wie würden Sie das berechnen? Es gibt keine Gleichung für "Bedeutung". –