2017-01-25 4 views
2

Wir arbeiten an Record Linkage-Projekt. Wir sind ein seltsames Verhalten von allen der Standardtechnik wie Jaro Winkler, Levenshtein, N-Gram, Damerau-Levenshtein, Jaccard Index zu beobachten, Sorensen-DiceDatensatzverknüpfung mit Stringähnlichkeit Techniken

Say, String 1 = MINI MüHLE KIT
String 2 = Weiler 13001 Mini Grinder Zubehörkit, zur Verwendung mit kleinen Winkelschleifmaschinen
String 3 = Milwaukee Video-Endoskop, rotierendes Inspektions-Scope, Serie: M-SPECTOR 360, 2,7 in 640 x 480 Pixel Hochauflösendes LCD, Kunststoff, Schwarz/Rot

In obigem Fall sind String 1 und String 2 die Punkte aller Methoden, wie unten gezeigt.
Jaro Winkler -> 0,391666651
Levenshtein -> 75
N-Gram, -> 0,9375
Damerau -> 75
Jaccard Index -> 0
Sorensen-Dice -> 0
Cosinus -> 0

Aber String 1 und String 3 sind überhaupt nicht verwandt, aber Abstandsmethode gibt sehr hohe Punktzahl. Jaro Winkler
-> 0,435714275
Levenshtein -> 133
N-Gram, -> 0,953571439
Damerau -> 133
Jaccard-Koeffizient -> 1
Sorensen-Dice -> 0
Cosine -> 0

Irgendwelche Gedanken.?

Antwort

1

Bei allen Abstandsberechnungen wird zwischen Groß- und Kleinschreibung unterschieden. Bringe sie alle zum selben Fall. Dann sehen Sie die Score-Berechnung entsprechend.

0

Ich glaube, dass Ihr Ziel hier ist zu überprüfen, ob die beiden Produkte gleich sind oder nicht. Die Daten sind aus verschiedenen Quellen, ich denke, im Falle von Daten wie diesem müssen Sie herausfinden, was die wichtigste Erwähnung wert ist, zu vergleichen ?! Der Markenname, die Spezifikationen, usw. ...

Diese Metriken folgen sehr primitivem Begriff der Ähnlichkeit !, füttern Sie nicht nur die Daten so.

Also zuerst sauber (Interpunktion entfernen, nicht wichtige Wörter), tokenize (brechen Sie einzelne Wort Sätze) dann können Sie fuzzywuzzy verwenden, um zu helfen, eine bessere Übereinstimmung zu finden.