Ich kann keine Methode zur Durchführung einer Kreuzvalidierung für ein zufälliges Regressionsmodell finden, das ich erstellen möchte.So führen Sie eine zufällige Gesamtstruktur-/Kreuzvalidierung in R
Also habe ich einen Datensatz mit 1664 erklärenden Variablen (verschiedene chemische Eigenschaften), mit einer Antwortvariable (Retentionszeit). Ich versuche ein Regressions-Waldmodell zu erstellen, um die chemischen Eigenschaften von etwas aufgrund seiner Retentionszeit vorhersagen zu können.
ID RT (seconds) 1_MW 2_AMW 3_Sv 4_Se
4281 38 145.29 5.01 14.76 28.37
4952 40 132.19 6.29 11 21.28
4823 41 176.21 7.34 12.9 24.92
3840 41 174.24 6.7 13.99 26.48
3665 42 240.34 9.24 15.2 27.08
3591 42 161.23 6.2 13.71 26.27
3659 42 146.22 6.09 12.6 24.16
Dies ist ein Beispiel für die Tabelle, die ich habe. Ich möchte RT gegen 1_MW usw. darstellen (bis zu 1664 Variablen), damit ich herausfinden kann, welche dieser Variablen wichtig sind und welche nicht.
ich tun: -
r = randomForest(RT..seconds.~., data = cadets, importance =TRUE, do.trace = 100)
varImpPlot(r)
, die mir sagt, welche Variablen von Bedeutung ist und was nicht, was toll ist. Ich möchte jedoch in der Lage sein, meine Datenmenge zu partitionieren, damit ich eine Kreuzvalidierung durchführen kann. Ich fand ein Online-Tutorial, das erklärte, wie man es macht, aber für ein Klassifizierungsmodell statt Regression.
Ich verstehe, was Sie tun: -
k = 10
n = floor(nrow(cadets)/k)
i = 1
s1 = ((i-1) * n+1)
s2 = (i * n)
subset = s1:s2
zu definieren, wie viele Querfalten Sie tun wollen, und die Größe jeder Falte, und die Anfangs- und Endwert der Teilmenge einzustellen. Ich weiß jedoch nicht, was ich danach machen soll. Mir wurde gesagt, ich solle durchgehen, aber ich habe wirklich keine Ahnung, wie ich das machen soll. Ich weiß auch nicht, wie ich dann den Validierungssatz und den Testsatz auf den gleichen Graphen auftrage, um den Grad der Genauigkeit/des Fehlers darzustellen.
Wenn Sie mir bitte damit helfen könnten, wäre ich Ihnen so dankbar, danke!
Wenn Sie noch Interesse an CV in R gibt es mindestens Paar: [caret] (http://cran.r-project.org/web/packages/caret/caret.pdf) und [cvTools ] (http://cran.r-project.org/web/packages/cvTools/cvTools.pdf) – topchef