Ich habe ein Datenrahmen, der wie folgt aussieht:Teilmenge Datenrahmen basierend auf abgelegenen Zählungen
df <- data.frame(Site=rep(paste0('site', 1:5), 50),
Month=sample(1:12, 50, replace=T),
Count=(sample(1:1000, 50, replace=T)))
Ich möchte alle Websites entfernen, wo die Zählung an allen Standorten immer < 5% der maximalen monatlichen Zahl ist.
Die max Monatszahlen über alle Standorte sind:
library(plyr)
ddply(df, .(Month), summarise, Max.Count=max(Count))
Wenn eine Zählung von 1 bis site5 zugeordnet ist, dann sind die Zählungen immer < 5% der maximalen monatlichen Zählungen an allen Standorten. Deshalb möchte ich site5 entfernt haben.
df$Count[df$Site=='site5'] <- 1
jedoch nach neuen Werten zu site2 Zuordnung sind einige seiner zählt < 5% der maximalen monatlichen zählt, während andere> 5% sind. Daher möchte ich nicht, dass site2 entfernt wird.
df$Count[df$Site=='site2'] <- ceiling(seq(1, 1000, length.out=20))
Wie kann ich Datenrahmen Teilmenge alle Sites zu entfernen, in denen zählt, sind immer < 5% der maximalen monatlichen Zahl? Lassen Sie mich wissen, wenn Frage unklar ist und ich werde mich ändern.
entfernen So werden alle Zeilen für Websites, auf denen Zahl von <5% max Zählung in Jan <5% max Zählung im Februar, <5% maximale Zählung in Mar .... jeden Monat des Jahres. Entfernen Sie keine Zeilen für Websites, bei denen z. B. <5% maximal gezählt wird, außer Juni. – luciano
@RossAhmed, das sollte es tun. – Arun