Ich habe eine Liste von Zeichenfolgen in Python.Clustering eines Wortes und seiner Abkürzung zusammen in Python
Zum Beispiel
[ 'FD für 5000', 'RD', 'Fest Deposit für 10000', 'RD 1000', '1000 wiederkehrende Ablagerung']
Der Eingang muß nicht sei gleich. Die Strings in der Liste könnten in beliebiger Reihenfolge sein und die Liste könnte beliebig lang sein.
Ich möchte die Strings mit dem Wort und seiner Abkürzung zusammen in separate Listen setzen.
Erwartete Ausgabe: {[ 'FD für 5000', 'Fest Kaution für 10000'], [ 'RD', 'RD für 1000', '1000 Recurring Einzahlung']}
Ich bin versuchen, tatsächlich eingegebene Benutzerkommentare zusammenzufassen. Einige Benutzer können den Text in abgekürzter Form eingeben, während andere ihn in voller Form eingeben können. Um ähnliche Kommentare zu gruppieren, brauche ich einen generischen Weg.
Ich würde jede mögliche Lösung zu schätzen wissen.
Clustering (unbeaufsichtigte statistische Methoden) * kann * dies nicht tun. –
@ Anony-Mousse Ich verstehe intuitiv, warum das stimmt, aber gibt es ein formaleres Argument? Könntest du mich auf etwas Lesematerial hinweisen? – maestromusica
Abkürzung ist nicht Teil einer Clusterbildung. –