2017-06-03 1 views
0

auswählte Ich hatte einen riesigen zusammengeführten Datenrahmen aus 2 Quellen. Ich bin daran interessiert, die Fehlcodierung von 2 kategorischen Variablen zu finden, aber weil diese 2 aus verschiedenen Quellen stammen, sind sie nicht gleich codiert.Wie man die gleiche kategorische Beobachtung in 2 verschiedenen Spalten in R

Zum Beispiel:

df 

col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN 

col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,.. 

eindeutig sind sie verschieden. Also habe ich versucht, col2 in ähnlicher Weise zu col1 neu zu kodieren, und ich habe dies erfolgreich getan mit mapvalue von plyr Paket

als ich versuchte, die Daten der Teilmenge von col1==col2 ich immer die Fehlerstufe Satz von Werten erhalten, sind verschiedene Hinweis Ich habe das Argument as.is=TRUE in read.csv versucht, aber nichts funktioniert.

+0

Vielleicht nur 'Ebenen (df $ col1) <- tolower (Level (df $ col1))' – Sotos

+0

Danke für Ihren Kommentar –

+0

ich kein Problem mit diesem den letzten Kategorien hatten für beide Spalten ist DM, GDM, NO, UNTIME, NOTKNOWN –

Antwort

0

können wir tun

library(dplyr) 
df1 %>% 
    filter(as.character(col1) == toupper(as.character(col2))) 
Verwandte Themen