Warum ist der Standardwert für max_features in RandomForestClassifier anders als der in RandomForestRegressor?

In RandomForestClassifier ist der Standardwert für max_featuressqrt(n_features) und in RandomForestRegressor ist es n_features, einen bestimmten Grund dafür?Warum ist der Standardwert für max_features in RandomForestClassifier anders als der in RandomForestRegressor?

Quelle

2013-08-29 d1337

Dies ist eine Heuristik, die auf empirischen Ergebnissen basiert. Im Durchschnitt scheint es die bessere Wahl zu sein, als Voreinstellung max_features = sqrt (n_features) für die Klassifizierung und max_features = n_features für die Regression zu setzen.

Diese Heuristik ergibt sich aus diesem Papier: http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf

In jedem Fall ist es natürlich immer eine bessere Idee, um Cross-validate dieser Parameter.

Quelle

2013-08-29 08:59:06

Danke für die Referenz! Wenn ich die zufällige Gesamtstruktur mit max_features = n_features und bootstrap = False verwende, wäre es richtig zu sagen, dass es sich im Wesentlichen wie ein einzelner Entscheidungsbaum verhält (nur mit viel Rechenaufwand) – d1337

Ja, in diesem Fall sind alle Bäume die Gleiches (modulo einige Verbindungen, die passieren können, wenn sie nach den besten Spalten suchen). –

Wenn max_features = n_features, dann wird die zufällige Subraum-Methode nicht einmal verwendet? –

Beachten Sie, dass Sie einstellen müssen:

max_features = 'sqrt'

Statt der vorgeschlagen:

max_features=sqrt(n_features)

abhängig von der Version Sie ausführen.

Quelle

2017-04-21 21:39:39

Warum ist der Standardwert für max_features in RandomForestClassifier anders als der in RandomForestRegressor?

Antwort

Verwandte Themen