Ich habe eine Tabelle mit Firmennamen. Es gibt viele Duplikate aufgrund menschlicher Eingabefehler. Es gibt unterschiedliche Auffassungen, ob die Unterteilung aufgenommen werden sollten, Tippfehler, etc. Ich alle wollen, dass diese Duplikate als ein Unternehmen „1c“ gekennzeichnet werden:Doppelte Beseitigung ähnlicher Firmennamen
+------------------+
| company |
+------------------+
| 1c |
| 1c company |
| 1c game studios |
| 1c wireless |
| 1c-avalon |
| 1c-softclub |
| 1c: maddox games |
| 1c:inoco |
| 1cc games |
+------------------+
I Levenshtein distance als eine gute Möglichkeit identifiziert Fehler zu beseitigen. Wenn jedoch die Unterteilung hinzugefügt wird, erhöht sich die Levenshtein-Distanz dramatisch und ist nicht länger ein guter Algorithmus dafür. Ist das richtig?
Im Allgemeinen habe ich kaum Erfahrung in Computerlinguistik, also bin ich ratlos, welche Methoden ich wählen sollte.
Welche Algorithmen würden Sie für dieses Problem empfehlen? Ich möchte es in Java implementieren. Reines SQL wäre auch in Ordnung. Links zu Quellen wären willkommen. Vielen Dank.
Siehe auch: https://stackoverflow.com/questions/429385/how-do-i-normalize-a-large-user-generated-data-set-of-company-names https: // stackoverflow .com/questions/7974972/how-to-normalize-firmennamen https://stackoverflow.com/questions/4835318/normalize-data-according-to-business-entity-legal-name-class-of-business- DNS – polm23