Ich benutze das Rassel-Paket, um einige Daten zu bereinigen und ich betrachte die erste Variable X in meinem Datensatz. Es wird berichtet, wenn ich auf der ersten Registerkarte die Registerkarte "Daten" mache, erhalte ich einige grundlegende Informationen über das Dataset und es heißt, dass die Variable X 1243 fehlende Werte hat. Dies ist auch der Wert, den ich bekomme, wenn ich sum(is.na(my_df[,1]))
verwende.Gibt es verschiedene Arten von NAs?
Auf dem nächsten Registerkarte des „Explore“ Registerkarte, wenn ich „Zusammenfassung“ überprüfen, sagt sie jetzt, dass ich in Variable X
nur 942 NAs habe Wie kann ich Sinn dieser unterschiedlichen Zahlen macht? Ich habe ein wenig durch meinen Datensatz geblättert und einige Zeilen mit NAs betrachtet, die alle gleich aussehen (ich verstehe, dass es manchmal verschiedene Arten von NAs gibt).
(Side Frage: sum(is.na(my_df[,1]), na.rm = FALSE)
und sum(is.na(my_df[,1]),na.rm = TRUE)
beide produzieren auch die gleiche Zahl 1243, warum ich hätte erwartet, dass man mir length(my_df[,1])-1243
gibt?.)
EDIT Hier ist die Datenmenge, die dieses Problem hat : https://wetransfer.com/downloads/cf454b2c12857a4e3770102a7222422f20171019153755/516fb0.
Die Zahlen in denen sind etwas anders, statt 1243 haben wir 88 NA gemäß der Registerkarte "Data" in rattle() (oder, entsprechend, entsprechend summary(ten_df)
), und 62 NAs nach dem "Explore" mit überprüfter Registerkarte Zusammenfassung
Aber jetzt vermute ich, dass mein Datensatz kaputt ist, weil ich vor dem Hochladen des vollständigen ursprünglich nur eine illustrative Spalte hochladen wollte. Aber wenn ich
ten_df = read.csv("ten.csv",sep=";")
my_df = as.data.frame(ten_df[,3])
ausführen, da ich mit var2
in der dritten Spalte aussehen wollen und my_df
war, was ich ursprünglich hochladen wollte, der letzte Befehl einen Fehler zurückgibt
Warning messages:
1: In rep(no, length.out = length(ans)) :
'x' is NULL so the result will be NULL
Auch wenn danach die Auswahl my_df, um es mit Rassel zu analysieren, sagt Klappern "0 Input-Variable" in der Leiste an der Unterseite, wo es Feedback gibt. Wie kann das sein?
Wie für Ihre Seite Frage, 'is.na' kann nur zurückkehren' TRUE/false', Argument 'na.rm' irrelevant ist . Um dies zu sehen, versuche 'x <- c (1: 3, NaN, NA, 4, 5, NA); Summe (is.na (x)) '. Was den Unterschied in den gemeldeten Werten der fehlenden Werte betrifft, ist es schwer zu sagen, ohne die Daten zu sehen. Ich würde 'Zusammenfassung (X)' vertrauen. –
@RuiBarradas Danke! – billyboy