Angenommen, Sie möchten ein einfaches Glm-Modell zur Vorhersage einer Wirtschaftsdatenserie auswerten. Betrachten wir den folgenden Code:Modellinterpretation mit Timeslice-Methode in CARET
library(caret)
library(ggplot2)
data(economics)
h <- 7
myTimeControl <- trainControl(method = "timeslice",
initialWindow = 24*h,
horizon = 12,
fixedWindow = TRUE)
fit.glm <- train(unemploy ~ pce + pop + psavert,
data = economics,
method = "glm",
preProc = c("center", "scale","BoxCox"),
trControl = myTimeControl)
Angenommen, der Kovarianten in den Zug Formel verwendet werden, sind Vorhersagen von durch ein anderes Modell erhaltenen Werte. Dieses einfache Modell gibt die folgenden Ergebnisse:
Generalized Linear Model
574 samples
3 predictor
Pre-processing: centered (3), scaled (3), Box-Cox transformation (3)
Resampling: Rolling Forecasting Origin Resampling (12 held-out with a fixed
window)
Summary of sample sizes: 168, 168, 168, 168, 168, 168, ...
Resampling results:
RMSE Rsquared
1446.335 0.2958317
erhalten Abgesehen von den schlechten Ergebnissen (dies ist nur ein Beispiel). Ich frage mich, ob es richtig ist:
- die obigen Ergebnisse zu prüfen, wie Ergebnisse erhalten, auf dem gesamten Datensatz von einem GLM trainierten nur 24 * h = 24 * 7 Proben und umschulen mit nach jeweils Horizont = 12 Proben
- Wie bewerten RMSE als Horizont wächst von 1 bis 12 (wie hier gemeldet http://robjhyndman.com/hyndsight/tscvexample/)?
wenn ich fit.glm Zusammenfassung zeige ich erhalten:
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-5090.0 -1025.5 -208.1 833.4 4948.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7771.56 64.93 119.688 < 2e-16 ***
pce 5750.27 1153.03 4.987 8.15e-07 ***
pop -1483.01 1117.06 -1.328 0.185
psavert 2932.38 144.56 20.286 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 2420081)
Null deviance: 3999514594 on 573 degrees of freedom
Residual deviance: 1379446256 on 570 degrees of freedom
AIC: 10072
Number of Fisher Scoring iterations: 2
Die Parameter zur letzten ausgebildeten GLM beziehen zeigte oder sind "durchschnittlich" paramters? Ich hoffe, ich war klar genug.