2017-05-14 31 views
0

max_depth VS min_samples_leafWie Sklearn RandomForest tune? max_depth Vs min_samples_leaf

Die Parameter max_depth und min_samples_leaf verwechselst mich am meisten während eines mehrere Versuche von GridSearchCV verwenden. Nach meinem Verständnis sind diese beiden Parameter eine Möglichkeit, die Tiefe der Bäume zu kontrollieren, Bitte korrigieren Sie mich, wenn ich falsch liege.

max_features

Ich bin eine sehr einfache Klassifikationsaufgabe zu tun und sich verändernden min_samples_leaf scheint auf der AUC-Score keine Wirkung zu haben; Die Optimierung der Tiefe verbessert jedoch meine AUC von 0,79 auf 0,84, ziemlich drastisch. Nichts anderes scheint es ebenfalls zu beeinflussen. Ich dachte, die Hauptsache, die ich tun sollte, ist max_features, jedoch ist der beste Ergebniswert nicht weit von sqrt(n_features).

scoring='roc_auc'

Ein weiteres Problem, bemerkte ich, wenn alle Parameter festgelegt werden, während die Anzahl der Bäume ändern, GridSearchCV die höchste Anzahl der Bäume immer wählen. Dies ist verständlich, aber die AUC fällt aus irgendeinem Grund leicht ab, obwohl scoring='roc_auc'. Warum ist das hacken? berücksichtigt es stattdessen den oob_score.

Bitte zögern Sie nicht teilen Sie jede Ressource, die hilfreich sein kann zu verstehen, wie zufällige Wälder systematisch abgestimmt werden können, da es scheint, gibt es einige verwandte Parameter beeinflussen sich gegenseitig.

Antwort

1

Wenn Sie maximale Tiefe erhöhen, erhöhen Sie die Varianz und verringern die Verzerrung. Auf der anderen Seite, wie Sie min Proben Blatt erhöhen verringern Sie Varianz und Bias zu erhöhen.

So werden diese Parameter den Grad der Regularisierung steuern, wenn die Bäume wachsen. Zusammenfassend wird eine Verringerung der Parameter max * und eine Erhöhung der Parameter min * die Regularisierung erhöhen.

Zweitens ist es schwer zu sagen, warum Ihre Genauigkeit sinkt. Sie können versuchen, verschachtelte CV zu versuchen, einen Eindruck von dem Bereich der Genauigkeiten zu bekommen, die die best_params_ zeigen, wenn sie auf ungesehene Daten verallgemeinern.

Verwandte Themen