R: Identifizieren Duplikate in einer Spalte nach Bedingung in der gleichen Spalte

Ich muss Duplikate in einem Datenrahmen in einer bestimmten Spalte identifizieren. Allerdings möchte ich nicht alle doppelten Werte eliminieren, sondern nur die, die "http" als Anfangsteil der Zeichenfolge in dieser Spalte anzeigen.R: Identifizieren Duplikate in einer Spalte nach Bedingung in der gleichen Spalte

Normalerweise würde ich die Duplikate mit dem Codezeile identifiziert unten:

Dup <-data[(duplicated(data[c("var1")])),]

Vielen Dank im Voraus.

Quelle

2016-10-31 Hamid Oskorouchi

Sie können versuchen, Daten [grepl ("^ http", Daten $ var1) & dupliziert (Daten $ var1),] '. Wenn Sie die Duplikate entfernen möchten, negieren Sie sie einfach. 'data [! (grepl ("^http ", Daten $ var1) & dupliziert (Daten $ var1)),]' – akrun

Vielen Dank, Ihr Vorschlag macht genau das, was ich wollte. –

Wir benötigen eine weitere Bedingung mit grep, um sicherzustellen, dass nur die Strings, die mit "http" beginnen und ein Duplikat sind, aus dem Dataset entfernt werden.

data[!(grepl("^http", data$var1) & duplicated(data$var1)),]

Quelle

2016-10-31 12:48:27 akrun

R: Identifizieren Duplikate in einer Spalte nach Bedingung in der gleichen Spalte

Antwort

Verwandte Themen