Ich habe einen großen Datensatz mit 22000 Zeilen und 25 Spalten. Ich versuche, meinen Datensatz basierend auf einer der Spalten zu gruppieren und den minimalen Wert der anderen Spalte basierend auf dem gruppierten Datensatz zu ermitteln. Das Problem ist jedoch, dass es mir nur zwei Spalten gibt, die die gruppierte Spalte und die Spalte mit dem Min-Wert enthalten ... aber ich benötige alle Informationen anderer Spalten, die sich auf die Zeilen mit den Min-Werten beziehen. Hier ist ein einfaches Beispiel nur um es reproduzierbar:Anwenden von group_by und Zusammenfassen von Daten unter Beibehaltung aller Spalten Info
data<- data.frame(a=1:10, b=c("a","a","a","b","b","c","c","d","d","d"), c=c(1.2, 2.2, 2.4, 1.7, 2.7, 3.1, 3.2, 4.2, 3.3, 2.2), d= c("small", "med", "larg", "larg", "larg", "med", "small", "small", "small", "med"))
d<- data %>%
group_by(b) %>%
summarise(min_values= min(c))
d
b min_values
1 a 1.2
2 b 1.7
3 c 3.1
4 d 2.2
Also, ich brauche auch Spalten, die Informationen haben im Zusammenhang a und d, aber da ich Doppelungen in den Werten in Spalte c haben kann ich nicht fusionieren Sie basieren auf der Spalte min_value ... Ich habe mich gefragt, ob es möglich ist, die Informationen anderer Spalten beizubehalten, wenn wir das dplyr-Paket verwenden.
Ich habe hier eine Erklärung gefunden "dplyr: group_by, subset and summarise" und hier "Finding percentage in a sub-group using group_by and summarise" aber keine der Adressen mein Problem.
Wie genau wollen Sie das resultierende data.frame aussehen würde? Wie würden die anderen Daten aussehen, wenn sie in einer einzigen Zeile komprimiert sind? – r2evans