2015-01-08 16 views
8

Hauptfrage: Angenommen, Sie haben einen diskreten, endlichen Datensatz $ d $. Dann gibt die Befehlszusammenfassung (d) Min, 1. Quartil, Median, Mittelwert, 3. Quartil und max. Meine Frage ist: Mit welcher Formel berechnet R das 1. Quartil?Definitionen von Quantilen in R

Hintergrund: Mein Datensatz war: d=c(1,2,3,3,4,9). summary(d) gibt 2.25 als erstes Quartil zurück. Nun, eine Möglichkeit, das erste Quartil zu berechnen, besteht darin, einen Wert q1 so zu wählen, dass 25% des Datensatzes kleiner als gleich q1 ist. Klar ist das nicht, was R verwendet. Also, ich frage mich, welche Formel benutzt R, um das erste Quartil zu berechnen?

Google-Suchen zu diesem Thema haben sogar noch mehr verwirrt, und ich konnte keine Formel finden, die R verwendet. Die Eingabe von help(summary) in R war mir auch nicht hilfreich.

+0

[Wikipedia] (http://en.wikipedia.org/wiki/Quantile#Estimating_the_quantiles_of_a_population) gibt die Formeln – Henry

Antwort

10

Allgemeine Diskussion:

viele verschiedene Möglichkeiten für die Proben Quantilfunktion Es gibt; Wir möchten, dass sie verschiedene Eigenschaften haben (einschließlich einfach zu verstehen und zu erklären!), und abhängig von den Eigenschaften, die wir am meisten wollen, bevorzugen wir vielleicht andere Definitionen.

Folglich verwendet die große Vielfalt der Pakete zwischen ihnen viele verschiedene Definitionen.

Das Papier von Hyndman und Fan [1] gibt sechs wünschenswerte Eigenschaften für eine Beispielquantilfunktion, listet neun bestehende Definitionen für die Quantilfunktion auf und erwähnt, welche (von einer Anzahl von gemeinsamen) Paketen welche Definitionen verwenden. Seine Einführung sagt (sorry, die Mathematik in diesem Zitat machen sich nicht mehr richtig, da es verschoben wurde SO):

die Probe Quantile, die in statistischen Pakete verwendet werden, basieren alle auf einer oder zwei sind Auftragsstatistik und kann als

\ hat geschrieben werden {Q} _i (p) = (1 - γ) X _ {(j)} + γ X _ {(j + 1)} \ ,,
wo \ frac {jm} {n} \ leq p < \ frac {j-m + 1} {n} \ quad (1)

für einige m \ in \ mathbb {R} und 0 \ leq \ gamma \ leq 1.

Das heißt, im Allgemeinen können die Beispielquantile als eine Art gewichteter Durchschnitt zweier benachbarter Ordnungsstatistiken geschrieben werden (obwohl es möglicherweise nur eine Gewichtung auf einer von ihnen gibt).

In R:

Insbesondere bietet R alle neun Definitionen erwähnt in Hyndman & Fan (mit $ 7 $ als Standard). Von Hyndman & Fan sehen wir:

Definition 7. Gumbel (1939) betrachtete auch die modale Position $ p_k = \ text {Modus} \, F (X_ {(k)}) = (k-l)/(n-1) $. Eine nette Eigenschaft ist, dass die Ecken von $ Q_7 (p) $ den Bereich in $ n-1 $ Intervalle unterteilen und genau $ 100p \% $ der Intervalle links von $ Q_7 (p $) und $ 100 (1 -p) \% $ der Intervalle liegen rechts von $ Q_7 (p) $.

Was bedeutet das? Betrachten Sie n=9.Dann für (k-1)/(n-1) = 0.25, benötigen Sie k = 1+(9-1)/4 = 3. Das heißt, das untere Quartil ist die 3. Beobachtung von 9.

Wir, dass in R sehen:

quantile(1:9) 
    0% 25% 50% 75% 100% 
    1 3 5 7 9 

für sein Verhalten, wenn n nicht von der Form 4k+1 ist, die einfachste Sache zu tun, ist zu versuchen, es:

> quantile(1:10) 
    0% 25% 50% 75% 100% 
1.00 3.25 5.50 7.75 10.00 
> quantile(1:11) 
    0% 25% 50% 75% 100% 
1.0 3.5 6.0 8.5 11.0 
> quantile(1:12) 
    0% 25% 50% 75% 100% 
1.00 3.75 6.50 9.25 12.00 

Wenn k nicht integer ist, ist es ein gewichtetes Mittel der benachbarten Ordnungsstatistiken nimmt im Verhältnis zu dem Bruchteil er zwischen ihnen liegt (das heißt, es macht linear interpolation).

Die nette Sache ist, dass Sie im Durchschnitt 3 mal so viele Beobachtungen über dem ersten Quartil bekommen, wie Sie unten erhalten. Für 9 Beobachtungen erhalten Sie zum Beispiel 6 oben und 2 unter der dritten Beobachtung, die sie in das Verhältnis 3: 1 teilt.

Was mit Beispieldaten geschieht

Sie haben d=c(1,2,3,3,4,9), so n ist 6. Sie (k-1)/(n-1) müssen 0.25 sein, so k = 1 + 5/4 = 2.25. Das heißt, es dauert 25% des Weges zwischen der zweiten und dritten Beobachtung (die zufällig selbst 2 und 3 sind), so dass das untere Quartil 2+0.25*(3-2) = 2.25 ist.

Unter der Haube: Einige R Details:

Wenn Sie summary auf einem Datenrahmen nennen, führt dies zu summary.data.frame auf den Datenrahmen angewandt werden (dh die betreffenden summary für die Klasse Sie es auf genannt) . Seine Existenz wird in der Hilfe auf erwähnt.

Die summary.data.frame Funktion (letztlich - über summary.default an jede Spalte angelegt) ruft quantile Quartile zu berechnen (Sie werden dies in der Hilfe nicht sehen, leider, da ?summary.data.frame einfach Sie Hilfe summary nimmt und dass nicht geben Sie Details darüber, was passiert, wenn summary auf einen numerischen Vektor angewendet wird - das ist einer dieser wirklich schlechten Stellen in der Hilfe).

So beschreibt ?quantile (oder help(quantile)) was R tut.

Hier sind zwei Dinge, die es sagt (basierend direkt von Hyndman & Fan).Erstens gibt es allgemeine Informationen:

All sample quantiles are defined as weighted averages of consecutive order statistics. Sample quantiles of type i are defined by:

Q[i](p) = (1 - γ) x[j] + γ x[j+1],

where 1 ≤ i ≤ 9, (j-m)/n ≤ p < (j-m+1)/n, x[j] is the jth order statistic, n is the sample size, the value of γ is a function of j = floor(np + m) and g = np + m - j, and m is a constant determined by the sample quantile type.

Zweitens gibt es spezifische Informationen über Methode 7:

Type 7
m = 1-p

. p[k] = (k - 1)/(n - 1). In this case, p[k] = mode[F(x[k])]. This is used by S.

Hoffentlich wird die Erklärung, die ich früher gab hilft mehr Sinn zu machen, was diese zu sagen hat. Die Hilfe auf quantile ziemlich genau zitiert Hyndman & Fan so weit wie Definitionen gehen, und sein Verhalten ist ziemlich einfach.


Referenz:

[1]: Rob J. Hyndman und Yanan Fan (1996),
"Probe Quantile in Statistische Pakete"
The American Statistician, Vol. 50, Nr. 4. (Nov.), S. 361-365

Siehe auch die Diskussion here.

+0

Danke für Ihre Antwort. Ich bin jedoch immer noch ein wenig verwirrt. Es scheint, dass R einige Methoden verwendet, um die Quantile zu berechnen, und es sieht aus wie diese Methode 7, was auch immer es ist, ist der Standard und wird auch in der Zusammenfassung verwendet. Allerdings haben sie immer noch Schwierigkeiten, die genaue Formel herauszufinden, die R zur Berechnung des Quantils benutzt. Danke noch einmal. –

+1

Hoffentlich ist es jetzt klarer. –

+0

Vielen Dank. Das ist klarer. Ich akzeptiere deine Antwort. –

Verwandte Themen