2017-07-20 2 views
1

Wenn ein Satz von 1 Million Datensätzen gegeben würde, wie würde ich ein Histogramm berechnen? Es wäre sehr hilfreich, wenn mir jemand erklären könnte, wie ich das angehen soll, und ich werde herausfinden, wie ich den Code implementieren kann. Ich möchte dies tun, ohne eines der Softwarepakete zu verwenden, in die Histogramme eingebaut sind.Kodierung eines Histogramms ohne Verwendung von Paketen

+1

Dies ist eine seltsame Frage. Wenn Sie das wirklich von Grund auf herausfinden wollten, würden Sie nicht jemanden bitten, Ihnen zu zeigen, wie. Wenn es sich um eine Art Hausaufgabe handelt, sollten Sie in der Frage im Vorfeld darüber sprechen. – shea

+0

Ich bin nicht in der Schule, es ist keine Hausaufgabenfrage – kwashington122

+0

Es bringt mich dazu, mich an einen Kurs in Wahrscheinlichkeiten zu erinnern, an dem ich teilgenommen habe und wo wir gelernt haben, wie man ein Histogramm erstellt. Aber es ist auf Französisch: http://www-ljk.imag.fr/membres/Olivier.Gaudoin/PMS.pdf#page=18. Vielleicht könntest du es googlen übersetzen. –

Antwort

2

Ich stimme zu mit @shea, dass dies eine ungewöhnliche Anfrage ist, aber ich beiße. Der erste Schritt ist es, einige Dummy-Daten erstellen ...

library(tidyverse) 
dta <- tibble(value = rnorm(1000000)) 

Ein Histogramm ist nur ein Balkendiagramm, das zeigt, wie viele Datenpunkte in einen Haufen von Bins fallen. Lassen Sie uns diese Bins als eine neue Variable erstellen, bin. Dieser Code zählt auch, wie viele Werte in jeden dieser Bereiche fallen und ruft diese Variable n auf.

dta <- dta %>% 
    mutate(bin = cut(value, breaks = 20)) %>% 
    group_by(bin) %>% 
    summarise(n = n()) 

Da bin ein geordneter Faktor ist, können Sie einen BarPlot mit bin auf der X-Achse erstellen und n auf der Y. Sie gebeten, nicht gezeigt werden, wie man das Teil zu tun, also werde ich hier aufhören: -)

Verwandte Themen