Dies ist das zweite Mal, dass ich nach Computerlinguistik/Fuzzy String Matching fragen werde, aber diesmal geht es nicht um Stemming.Fuzzy String Vergleich - Erkennen von Kurznamen
Mein erstes Problem war, eine Datenbank mit Fuzzy-String-Matching zu deduplizieren, und das habe ich bereits erreicht. Jetzt muss ich erkennen, ob eine Zeichenkette eine Kurzschrift einer anderen Zeichenkette ist. Zum Beispiel:
- JOHN ADRIAN FREEMAN WELTER gleich JAF Welter oder JAFWelter
- MICROSOFT OFFICE zu MS OFFICE gleich
- Gebäude BLDG gleich
ich derzeit bin mit. Net-Version von SimMetrics für mein erstes Problem. Also, gibt es eine Methode in SimMetrics, die mein Problem lösen kann? Wenn keine, was ist der beste Weg, um dies zu lösen?
Hier ist die in SimMetrics implementiert Metriken:
- Hamming-Distanz
- Levenshtein Entfernung
- Needleman-Wunch Entfernung oder Sellers Algorithmus
- Smith-Waterman Entfernung
- Gotoh Entfernung oder Smith-Waterman -Gotoh Abstand
- Blockieren Sie Entfernung oder L1 Entfernung oder Stadt Block Entfernung
- Monge Elkan Abstand
- Jaro Distanzmaß
- Jaro Winkler
- SoundEx Distanzmaß
- Matching Coefficient
- Dice-Koeffizient
- Jaccard Ähnlichkeit oder Jaccard-Koeffizient oder Tanimoto-Koeffizient
- Überlappungskoeffizient
- Euklidischer Abstand oder L2-Abstand
- Kosinusähnlichkeit
- Variational Abstand
- Hellinger Entfernung oder Bhattacharyya Abstand
- Informationen Radius (Jensen-Shannon Divergenz)
- Harmonic Mittelwert
- Skew Divergenz
- Verwirrung Probability
- Tau
- Fellegi und Sunters (SFS) metrisch
- TFIDF oder TF/IDF
- FastA
- BlastP
- Maximal Spiele
- q-Gramm
- Ukkonen Algorithmen
ich mit all diesen Algorithmen nicht so vertraut bin. Die, die ich hier schon benutzt habe, sind Leveshtein Distance, Needleman-Wunch, Jaro-Winkler, SoundEx und TF/IDF. Und ich denke, diese Algorithmen sind nicht genug, um dieses Kurzschrift-Namensproblem zu lösen
können Sie ein wenig mehr Informationen darüber geben, wie haben Sie das tun: 'Mein erstes Problem war, eine Datenbank dedupliziert Verwendung von Fuzzy-String-Matching, und das habe ich bereits erreicht – zaitsman