Wir arbeiten an Record Linkage-Projekt. Wir sind ein seltsames Verhalten von allen der Standardtechnik wie Jaro Winkler, Levenshtein, N-Gram, Damerau-Levenshtein, Jaccard Index zu beobachten, Sorensen-DiceDatensatzverknüpfung mit Stringähnlichkeit Techniken
Say, String 1 = MINI MüHLE KIT
String 2 = Weiler 13001 Mini Grinder Zubehörkit, zur Verwendung mit kleinen Winkelschleifmaschinen
String 3 = Milwaukee Video-Endoskop, rotierendes Inspektions-Scope, Serie: M-SPECTOR 360, 2,7 in 640 x 480 Pixel Hochauflösendes LCD, Kunststoff, Schwarz/Rot
In obigem Fall sind String 1 und String 2 die Punkte aller Methoden, wie unten gezeigt.
Jaro Winkler -> 0,391666651
Levenshtein -> 75
N-Gram, -> 0,9375
Damerau -> 75
Jaccard Index -> 0
Sorensen-Dice -> 0
Cosinus -> 0
Aber String 1 und String 3 sind überhaupt nicht verwandt, aber Abstandsmethode gibt sehr hohe Punktzahl. Jaro Winkler
-> 0,435714275
Levenshtein -> 133
N-Gram, -> 0,953571439
Damerau -> 133
Jaccard-Koeffizient -> 1
Sorensen-Dice -> 0
Cosine -> 0
Irgendwelche Gedanken.?