Ich habe eine Datentabelle mit Faktoren und numerischen Werten. Ich möchte diese Datentabelle unterteilen, um nur die höheren Werte auszuwählen. Die Summe dieser höheren Werte muss 80% der Spaltensumme darstellen.R Subset-Datentabelle mit höheren Werten einer Spalte (so dass die Teilmenge 80% der Spaltensumme darstellt)
Ist das ein eleganter Weg?
Zum Beispiel ist hier eine ungeordnete Datentabelle, ECART_H
Spalt den Wert von Interesse enthalten (sum = 10307.08
; 0.8*sum = 8245
) das subsetting nur Zeile in der Auswahl 3 führen soll: und 4: (sum= 8428
) so, dass diese 2 Reihen sind die minimalen Reihen zu wählen, um> 80% der Summe von ECART_H
zu sein.
REGROUP FAMILLE TREND RMSE ECART_H
1: 10 A03 48.43853 675.7492 470.45737
2: 10 A04 61.65814 599.2031 795.08575
3: 10 H01 269.07728 12004.1214 6974.29642
4: 10 N01 -170.30563 6282.8133 1455.44291
5: 10 S01 147.61121 2711.0511 529.22545
6: 10 D06 13.64792 167.9315 82.57669
Wie viele Werte werden als höhere Werte betrachtet? Vielleicht "library (zoo); df1 [df1 [, welches (rollsum (ECART_H, 2)> (0.8 * Summe (ECART_H))) + 0: 1]] – akrun