2017-05-23 4 views
1

Ich habe einen Datensatz mit vielen Doubletten darin. Ich möchte nach einer ungefähren Übereinstimmung zwischen den doppelten Variablen suchen, weil sie nicht genau die gleichen Namen haben. Ich möchte sie vergleichen, damit ich entscheiden kann, welche ich löschen muss. Die Variablen sind Vor- und Nachnamen, die einander sehr ähnlich sind und sich nur in wenigen Buchstaben oder manchmal nur in einem Komma oder einem Leerzeichen unterscheiden. Zum Beispiel habe ich einen Fall mit dem Namen "Smith" und der nächste Fall heißt "Smithh", aber die Fälle sind die gleiche Person. Wie kann ich sie zusammenführen?Ungefähre Übereinstimmung zwischen den Variablen

Vielen Dank für Hilfe im Voraus!

Antwort

1

Was Sie suchen, ist probabilistische Record-Verknüpfung, auch bekannt als probabilistischen Matching. Im Gegensatz zur deterministischen Datensatzverknüpfung, wie sie vom Befehl MATCH FILES bereitgestellt wird. Die probabilistische Datensatzverknüpfung ist keine Standardfunktion von SPSS, erfordert jedoch zusätzliche Software.

Verwandte Themen