2016-09-19 1 views
0

Angenommen, Sie möchten ein einfaches Glm-Modell zur Vorhersage einer Wirtschaftsdatenserie auswerten. Betrachten wir den folgenden Code:Modellinterpretation mit Timeslice-Methode in CARET

library(caret) 
library(ggplot2) 
data(economics) 
h <- 7 
myTimeControl <- trainControl(method = "timeslice", 
           initialWindow = 24*h, 
           horizon = 12, 
           fixedWindow = TRUE) 

fit.glm <- train(unemploy ~ pce + pop + psavert, 
        data = economics, 
        method = "glm", 
        preProc = c("center", "scale","BoxCox"), 
        trControl = myTimeControl) 

Angenommen, der Kovarianten in den Zug Formel verwendet werden, sind Vorhersagen von durch ein anderes Modell erhaltenen Werte. Dieses einfache Modell gibt die folgenden Ergebnisse:

Generalized Linear Model 

574 samples 
3 predictor 

Pre-processing: centered (3), scaled (3), Box-Cox transformation (3) 
Resampling: Rolling Forecasting Origin Resampling (12 held-out with a fixed 
window) 
Summary of sample sizes: 168, 168, 168, 168, 168, 168, ... 
Resampling results: 

RMSE  Rsquared 
1446.335 0.2958317 

erhalten Abgesehen von den schlechten Ergebnissen (dies ist nur ein Beispiel). Ich frage mich, ob es richtig ist:

  1. die obigen Ergebnisse zu prüfen, wie Ergebnisse erhalten, auf dem gesamten Datensatz von einem GLM trainierten nur 24 * h = 24 * 7 Proben und umschulen mit nach jeweils Horizont = 12 Proben
  2. Wie bewerten RMSE als Horizont wächst von 1 bis 12 (wie hier gemeldet http://robjhyndman.com/hyndsight/tscvexample/)?

wenn ich fit.glm Zusammenfassung zeige ich erhalten:

Call: 
NULL 

Deviance Residuals: 
    Min  1Q Median  3Q  Max 
-5090.0 -1025.5 -208.1 833.4 4948.4 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 7771.56  64.93 119.688 < 2e-16 *** 
pce   5750.27 1153.03 4.987 8.15e-07 *** 
pop   -1483.01 1117.06 -1.328 0.185  
psavert  2932.38  144.56 20.286 < 2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for gaussian family taken to be 2420081) 

Null deviance: 3999514594 on 573 degrees of freedom 
Residual deviance: 1379446256 on 570 degrees of freedom 


AIC: 10072 

Number of Fisher Scoring iterations: 2 

Die Parameter zur letzten ausgebildeten GLM beziehen zeigte oder sind "durchschnittlich" paramters? Ich hoffe, ich war klar genug.

Antwort

0

Diese Neuabtastungsmethode ist wie jede andere auch. Der RMSE wird unter Verwendung verschiedener Teilmengen der Trainingsdaten geschätzt. Beachten Sie, dass dort "Summary of sample sizes: 168, 168, 168, 168, 168, 168, ..." steht. Das endgültige Modell verwendet alle des Trainingsdatensatzes.

Der Unterschied zwischen den Ergebnissen von Rob und diesen ist in erster Linie auf den Unterschied zwischen dem mittleren absoluten Fehler (MAE) und dem mittleren quadratischen Fehler (RMSE)

zurückzuführen