Ich habe mehrere Spalten von Adressen, wo sie doppelte Informationen enthalten können (aber in der Regel nicht genau dupliziert Informationen haben).Suchen Spalte Wert in einer anderen Spalte enthalten R
Der folgende Code wird ein Beispiel für meine Ausgabe liefern,
id= c(1, 2)
add1 = c("21ST AVE", "5TH ST")
add2 = c("21ST AVE BLAH ST", "EAST BLAH BLVD")
df = data.frame(id, add1, add2)
df$combined = paste(add1, add2)
df
Dies ergibt folgendes Ergebnis,
id add1 add2 combined
1 1 21ST AVE 21ST AVE BLAH ST 21ST AVE 21ST AVE BLAH ST
2 2 5TH ST EAST BLAH BLVD 5TH ST EAST BLAH BLVD
Die Schlussfolgerung, die ich brauche ist die folgende,
id add1 add2 combined
1 1 21ST AVE 21ST AVE BLAH ST 21ST AVE BLAH ST
2 2 5TH ST EAST BLAH BLVD 5TH ST EAST BLAH BLVD
Ich möchte herausfinden, ob add1
inenthalten ist. Wenn ich finde, dass add2
die gleichen Informationen enthält, die add1
liefert, dann möchte ich entweder die Kombination dieser bestimmten Spaltenwerte vermeiden oder die wiederholten Informationen in der kombinierten Spalte löschen (was meiner Meinung nach ein anderes Problem wiederholter Sätze in einem String lösen würde) . Ich war nicht in der Lage, ein Beispiel für das Auffinden von Spaltenwerten zu finden, die "enthalten" statt "exakt" sind - und ich arbeite mit über 500.000 Fällen in einem Datensatz, bei dem dieses Problem häufig auftritt. Jede Hilfe wird geschätzt.
Das ist perfekt, ich hatte nicht daran gedacht, mit eine Gewerkschaft - aber das war im Grunde, was ich suchte. Danke vielmals. – rastrast