2017-09-26 1 views
0

Ich habe ein zufälliges Waldmodell, das eine Variable vorhersagt. Diese Variable ist keine kategoriale Klasse, sondern eine Zahl von 0 bis 1. Wie lässt sich die Genauigkeit der generierten Modelle in diesem Fall am besten beurteilen?Der beste Weg, um eine zufällige Waldmodellgenauigkeit auf kontinuierlichen Daten zu bewerten?

Soll ich die Trainings- und Testteile aufteilen und dann einfach lineare Korrelationen zwischen vorhergesagten und beobachteten Werten in der Testklasse berechnen?

Gibt es eine elegantere Lösung? Wenn ja, welches Paket implementiert das?

+2

Dies ist eine statistische Frage, keine Programmiersprache ein, so sollte es auf stats.stackexchange seine nicht Stapelüberlauf . Das heißt, selbst dort wird es eine schlechte Frage sein. Wahrscheinlich bietet das von Ihnen verwendete zufällige Gesamtstrukturpaket gute Optionen (z. B. mittlerer quadratischer Fehler und R^2). Sie sollten sich wahrscheinlich die Standardoption und andere integrierte Optionen ansehen, bevor Sie sich Ihre eigenen überlegen. – Gregor

Antwort

0

Sie können natürlich einige Daten als Test (gegen Zug) abspalten, aber mit einer zufälligen Gesamtstruktur ist dies im Allgemeinen nicht notwendig, da es einen "eingebauten" Out-of-Bag (OOB) -Fehler gibt. Hier ist ein Beispiel, das mit zeigen OOB Fehler vs. Anzahl der Bäume auf dem „mtcars“-Datensatz endet:

install.packages("randomForest") 
library(randomForest) 

head(mtcars) 
set.seed(1) 
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE) 
print(fit) 

# Look at variable importance: 
importance(fit) 

# OOB error vs. # of trees 
plot(fit) 
Verwandte Themen