Clustering eines Wortes und seiner Abkürzung zusammen in Python

-2

Ich habe eine Liste von Zeichenfolgen in Python.Clustering eines Wortes und seiner Abkürzung zusammen in Python

Zum Beispiel

[ 'FD für 5000', 'RD', 'Fest Deposit für 10000', 'RD 1000', '1000 wiederkehrende Ablagerung']

Der Eingang muß nicht sei gleich. Die Strings in der Liste könnten in beliebiger Reihenfolge sein und die Liste könnte beliebig lang sein.

Ich möchte die Strings mit dem Wort und seiner Abkürzung zusammen in separate Listen setzen.

Erwartete Ausgabe: {[ 'FD für 5000', 'Fest Kaution für 10000'], [ 'RD', 'RD für 1000', '1000 Recurring Einzahlung']}

Ich bin versuchen, tatsächlich eingegebene Benutzerkommentare zusammenzufassen. Einige Benutzer können den Text in abgekürzter Form eingeben, während andere ihn in voller Form eingeben können. Um ähnliche Kommentare zu gruppieren, brauche ich einen generischen Weg.

Ich würde jede mögliche Lösung zu schätzen wissen.

Quelle

2017-07-27 sofibiju senthil

Clustering (unbeaufsichtigte statistische Methoden) * kann * dies nicht tun. –

@ Anony-Mousse Ich verstehe intuitiv, warum das stimmt, aber gibt es ein formaleres Argument? Könntest du mich auf etwas Lesematerial hinweisen? – maestromusica

Abkürzung ist nicht Teil einer Clusterbildung. –

Es gibt viele Möglichkeiten, das zu tun. Zum Beispiel:

Alle ungeraden Elemente Ihrer Liste sind Abkürzungen. Sie können sie mit Liste Verständnis erhalten:
```
[a for (a,b) in zip(a,range(10)) if b % 2 == 1] 
```
Ähnlich nicht-Abkürzungen:
```
[a for (a,b) in zip(a,range(10)) if b % 2 == 0] 
```
Verwenden list[start:end:step] mit step = 2.

Quelle

2017-07-27 11:53:27 maestromusica

Hallo Masteromusica, Vielen Dank für Ihre Antwort, aber ich habe nur die Liste als Beispiel angegeben. Die Zeichenfolgen in der Liste können in beliebiger Reihenfolge angeordnet sein, und die Liste kann beliebig groß sein. Es wäre hilfreich, wenn Sie eine generischere Möglichkeit zum Clustering der Texte bieten könnten. Lass mich meine Frage bearbeiten. –

@sofibijusenthil, wenn Sie weitere Details über die Eigenschaften dieser Zeichenfolgen hinzufügen, kann ich Ihnen nicht helfen – maestromusica

Ich versuche, das oben genannte zu verwenden, um Benutzer eingegebene Kommentare zusammen zu gruppieren. Einige Benutzer können den Text in abgekürzter Form eingeben, während andere ihn in voller Form eingeben können. Um ähnliche Kommentare zu gruppieren, brauche ich einen generischen Weg. –

Clustering eines Wortes und seiner Abkürzung zusammen in Python

Antwort

Verwandte Themen