ich einen Datenrahmen im Format haben:entfernen benachbarte Duplikate in r
site_domain <- c('ebay.com','facebook.com','facebook.com','ebay.com','ebay.com','auto.com','ebay.com','facebook.com','auto.com','ebay.com','facebook.com','facebook.com','ebay.com','facebook.com','auto.com','auto.com')
id <- c(1, 1, 1,2,2,3,3,3,3,4,4,4,5,5,5,5)
file0 <- as.data.frame(cbind(site_domain,id))
ich eine Gruppe tat, indem Sie auf "id" die Daten zu erhalten:
library(dplyr)
xx <- as.data.frame(file0 %>%
group_by(id) %>%
summarise(pages=paste(site_domain, collapse='_')))
Die Daten wie folgt aussieht:
1 ebay.com_facebook.com_facebook.com
2 ebay.com_ebay.com
3 auto.com_ebay.com_facebook.com_auto.com
4 ebay.com_facebook.com_facebook.com
5 ebay.com_facebook.com_auto.com_auto.com
Allerdings möchte ich neben Duplikate entfernen, so will ich löschte wie:
1 ebay.com_facebook.com
2 ebay.com
3 auto.com_ebay.com_facebook.com_auto.com
4 ebay.com_facebook.com
5 ebay.com_facebook.com_auto.com
Wie kann ich dies erreichen.
das sieht gut aus, Allerdings sehe ich in der 3. Zeile: Ausgabe sollte 'auto.com_ebay.com_facebook.com_auto.com' sein, aber dieser Ansatz ergibt:' aut o.com_ebay.com_facebook.com' .. jede Hilfe, wie können wir das ändern. – PSraj
Ja, es ist möglich, ich werde die Antwort mit dem neuen Ansatz – OdeToMyFiddle