Diese Frage ist nur zu verstehen, warum dies passieren würde.Merge-Funktion erzeugt Duplikate
ich Zusammenführen von zwei Datenbanken:
bot.rep.geo <- merge(x = bot.rep, y = geo.2016, by = "cod.geo", all.x = TRUE)
Die ursprünglichen Datenbanken folgende Abmessungen haben: bot.rep
hat 1.634.451 Beobachtungen, geo.2016
hat 1393
Nach der Verwendung von all.x = TRUE
Zusammenführung die neue Datenbank entsteht mit 1.727.681 , anstelle der gleichen Größe wie bot.rep
.
Warum passiert das?
Nach einer kurzen Überprüfung, erkannte ich, dass es einige Duplikate erstellt, aber ich verstehe nicht den Grund und wenn ich etwas falsch mache, während die merge
Funktion verwenden.
Wenn Sie 'all.x = TRUE 'wählen, machen Sie das Äquivalent zu einem' LEFT JOIN' in SQL. Dies bedeutet nicht, dass eine bestimmte Zeile von 'bot.rep' nur einmal angezeigt wird. Stattdessen wird es für jede Übereinstimmung in 'cod.geo' einmal angezeigt und jede Zeile in' bot.rep' wird garantiert angezeigt, auch wenn sie zu nichts passt. –
Zeigen Sie uns einige Beispieldaten und das wird klar sein. –
Danke @TimBiegeleisen für die Klärung. Gibt es eine Möglichkeit, dies zu verhindern, oder müssen nur Duplikate entfernt werden? –