auswählte Ich hatte einen riesigen zusammengeführten Datenrahmen aus 2 Quellen. Ich bin daran interessiert, die Fehlcodierung von 2 kategorischen Variablen zu finden, aber weil diese 2 aus verschiedenen Quellen stammen, sind sie nicht gleich codiert.Wie man die gleiche kategorische Beobachtung in 2 verschiedenen Spalten in R
Zum Beispiel:
df
col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN
col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,..
eindeutig sind sie verschieden. Also habe ich versucht, col2 in ähnlicher Weise zu col1 neu zu kodieren, und ich habe dies erfolgreich getan mit mapvalue
von plyr
Paket
als ich versuchte, die Daten der Teilmenge von col1==col2
ich immer die Fehlerstufe Satz von Werten erhalten, sind verschiedene Hinweis Ich habe das Argument as.is=TRUE
in read.csv
versucht, aber nichts funktioniert.
Vielleicht nur 'Ebenen (df $ col1) <- tolower (Level (df $ col1))' – Sotos
Danke für Ihren Kommentar –
ich kein Problem mit diesem den letzten Kategorien hatten für beide Spalten ist DM, GDM, NO, UNTIME, NOTKNOWN –