2017-07-29 2 views
1

Gridsearhcv verwendet StratifiedKFold oder KFold. Also meine Frage ist, ob ich meine Daten in Zug und Test aufteilen sollte, bevor ich Gridsearch benutze, dann nur für Testdaten geeignet? Ich bin nicht sicher, ob es notwendig ist, weil cv-Methode die Daten bereits teilt, aber ich habe einige Beispiele gesehen, die Daten vorher teilen.Muss ich bei der Verwendung von GridSearchCV Daten aufteilen?

Vielen Dank.

Antwort

1

GridSearchCV wird die Daten, die Sie ihm geben, in Train und CV-Set aufteilen und den Algorithmus nach den besten Hyperparametern unter Verwendung des CV-Sets trainieren. Sie können verschiedene Split-Strategien angeben, wenn Sie möchten (z. B. Split-Anteil).

Aber wenn Sie Hyperparameter Tuning-Informationen über das Dataset immer noch "Lecks" in den Algorithmus.

Daher würde ich empfehlen die folgenden Ansatz:

1) Nehmen Sie Ihre ursprünglichen Daten-Set und einige Daten als Testsatz durchhalten (etwa 10%)

2) Verwenden Sie Rastersuche auf Rest 90%. Split wird für Sie durch den Algorithmus hier erledigt.

3) Nachdem Sie die optimalen Hyperparameter erhalten haben, testen Sie sie im Testset von # 1, um eine endgültige Schätzung der Leistung zu erhalten, die Sie bei neuen Daten erwarten können.

Verwandte Themen