Ich habe es mit einem Datensatz, wo ich Schüler Bewertungen von Lehrern haben. Einige Schüler bewerteten den gleichen Lehrer mehr als einmal. Was möchte ich mit den Daten zu tun, ist es mit den folgenden Kriterien zur Teilmenge:Wählen Sie zufällige Zeilen von doppelten IDS
1) Halten Sie einen eindeutigen Student Ids und Bewertungen
2) In Fällen, in denen die Schüler zweimal einen Lehrer nur 1 Bewertung halten bewertet , aber um auszuwählen, welche Bewertung zufällig zu halten ist.
3) Wenn möglich, möchte ich den Code in einem Munging-Skript am Anfang jeder Analysedatei ausführen und sicherstellen, dass die erstellte Datenmenge für jede Analyse genau gleich ist (set seed?).
# data
student.id <- c(1,1,2,3,3,4,5,6,7,7,7,8,9)
teacher.id <- c(1,1,1,1,1,2,2,2,2,2,2,2,2)
rating <- c(100,99,89,100,99,87,24,52,100,99,89,79,12)
df <- data.frame(student.id,teacher.id,rating)
Danke für jede Anleitung, wie Sie vorwärts gehen können.
was würde sich ändern, wenn ein Schüler mehrere Lehrer bewertet? Ich kann meine Daten aktualisieren. – bfoste01
Die Aufteilung müsste auf einer Variablen sein, die den Lehrer und die Schüler-IDs interagiert. Siehe meine aktualisierte Antwort. – lmo
Fantastisch. Das hilft sehr! Gibt es eine Möglichkeit, diesen Code zu beschleunigen? Ich habe 100.000 IDS, also ist es ziemlich langsam, im letzten do.call zu einer Lösung zu konvergieren oder ist das so schnell wie es geht? – bfoste01