Ich arbeite gerade an einem Projekt, wo ich einen riesigen Datenrahmen habe, 16196 obs von 25 Variablen. Das Ziel besteht darin, Ausreißer zu eliminieren, die sich im Datenrahmen für jede spezifische Behandlung befinden könnten. Das Problem ist, dass die Säule mit den Behandlungen jede Behandlung dort hat und jede Behandlung eine andere Dauer hat. Lass mich dir ein Beispiel zeigen.Dekonstruieren einer Spalte in R durch Abgleichen ähnlicher Zeilen?
val_lvl2: chr "Cervical Fusion (Spondylodese)" "nicht-chirurgische Behandlung" "nicht-chirurgische Behandlung" "nicht-chirurgische Behandlung" ...
prd_num_of_days_num: num 167 46 46 46 46 46 46 167 167 46 ...
Ausgang ist von str (z_combined_cost_dtrmnt)
Wir, dass val_lvl2 die Behandlungen alle (100+ nicht gezeigt) hat sehen können. Und prd_num_of_days_num hat die Länge dieser spezifischen Behandlung. Nun, was ich tun möchte, ist die Kombination der "Cervical Fusion" -Daten und der "Non-Surgical Treatment" -Daten in eigene kleine Datenrahmen. Danach möchte ich ein 95% iges Vertrauen in die Länge der Behandlungen schaffen und dann alle Datenzeilen entfernen, die nicht in dieses CI fallen. Dann bringen Sie die Datenframes zurück, so dass wir wieder eine große haben, aber die Ausreißer in jeder Behandlung sind weg.
Ich würde jede Hilfe zu schätzen wissen, da ich wirklich nicht weiß, wo ich anfangen soll, da es keinen einfachen Weg zu geben scheint, den Datenrahmen so zu zerlegen, wie ich es möchte.
Derzeit über die Verwendung der Aggregatfunktion nachdenken.
agg < - Aggregat (z_combined_cost_dtrmnt $ prd_num_of_days_num, durch = list (val_lvl2 = z_combined_cost_dtrmnt $ val_lvl2) von = list (val_lvl3 = z_combined_cost_dtrmnt $ val_lvl3) FUN = SD)
jedoch, die diesen Fehler gibt: Fehler in aggregate.data.frame (as.data.frame (x), ...): formales Argument "durch" durch mehrere tatsächliche Argumente angepasst
TL/DR
Big Data Frame ->
Kleinere Daten Fram Es basiert auf eindeutigen Werten in val_lvl2 unter Berücksichtigung, dass es ähnliche eindeutige Werte gibt, dh mehrere Instanzen von "Cervical Fusion" sollten im selben kleinen Datenrahmen sein ->
Erstellen Sie ein 95% CI basierend auf dem prd_num_of_days_num (length die Behandlung) für jeden Rahmen kleinen Daten - außerhalb CI>
der gesamte Zeile für jeden eindeutigen Wert entfernen, wenn prd_num_of_days_num ist ->
ohne Ausreißer in einen großen Datenrahmen wieder kleinen Datenrahmen verschmelzen.
Willkommen bei Stackoverflow in R. zu organisieren.Bitte geben Sie eine [MCVE] –
Hey @ StevenBeaupré! Meine derzeitige Idee ist, möglicherweise zu aggregieren. Hier ist, was ich bisher habe. agg <- Aggregat (z_combined_cost_dtrmnt $ prd_num_of_days_num, durch = list (val_lvl2 = z_combined_cost_dtrmnt $ val_lvl2) von = list (val_lvl3 = z_combined_cost_dtrmnt $ val_lvl3) FUN = SD) jedoch das gibt diesen Fehler: Fehler in Aggregate .data.frame (as.data.frame (x), ...): formales Argument "by" mit mehreren tatsächlichen Argumenten übereinstimmen – nazgulian