Angenommen, wir haben ein ursprüngliches Dataset, das die Population enthält, und wir haben ein verschmolzenes Dataset, das die Population nach dem Zusammenführen mit einem anderen Dataset enthält (also weniger Beobachtungen).Geschichtete Zufallsstichprobe in R nach dem Zusammenführen
library(tidyverse)
set.seed(0)
population_data <- data.frame(ID = c(1:100),
industry = sample(1:10, 100, replace = T),
size = log1p(runif(100, 1e+03, 1e+08)),
performance = runif(100, -0.10, 0.10))
merged_data <- population_data[sample(nrow(population_data), 50), ]
Von diesem ‚verschmolzen‘ Daten-Set, würde Ich mag eine stratisfied Stichprobe auf bestimmten Eigenschaften des ursprünglichen Bevölkerung Datensatz auf, zum Beispiel Industrieebene basierend nehmen.
population_characteristics <- population_data %>%
group_by(industry) %>%
summarize(avg_industry_size = n()/nrow(population_data),
avg_size = mean(size, na.rm = T),
avg_performance = mean(performance, na.rm = T))
Was in den ‚population_characteristics‘, nachdem er von gruppiert mit denen der einfachste Weg, um eine Probe von 20 Beobachtungen des ‚merged_data‘ Objekt zu nehmen, so dass die Eigenschaften dieser neuen Probe Spiel so eng wie möglich wäre Industrie wieder?
im 'survey' Paket gibt es eine' stratsample' Funktion –
Wie viele Stichproben möchten Sie pro Gruppe haben? – www
Ich hätte gerne ein neues Sample, das x Menge an Beobachtungen aus dem zusammengeführten Datensatz enthält, aber so, dass die Merkmale mit denen der ursprünglichen Population (auf Branchenebene) übereinstimmen. – Oscar