Der Iris-Datensatz hat 50 Einträge für jede der drei Arten:R: eindeutige Zeilen in Zusammengeführt Datenrahmen von Outer Join
data('iris')
table(iris$Species)
setosa versicolor virginica
50 50 50
mit der Iris in zwei Datenrahmen subsetted Datensatz (mit überlappenden Arten und asymmetrischen Spalten), und mit einem äußeren Mischjoin:
table(SV_VV_merge$Species)
setosa versicolor virginica
50 50 66
:
# missing Petal.Width
SV <- subset(iris, Species == 'setosa' | Species == 'virginica',
select = c('Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Species'))
# missing Sepal.Length
VV <- subset(iris, Species == 'versicolor' | Species == 'virginica',
select = c('Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species'))
SV_VV_merge <- merge(SV,VV,all=TRUE)
I 16 zusätzliche Einträge für virginica
finden
Wie kann ich sehen, welche Zeilen im zusammengeführten Datenformat Duplikate für die geteilten Spalten 'Sepal.Width' 'Petal.Length' 'Species' für die Spezies 'virginica' haben?