2013-08-29 4 views

Antwort

6

Dies ist eine Heuristik, die auf empirischen Ergebnissen basiert. Im Durchschnitt scheint es die bessere Wahl zu sein, als Voreinstellung max_features = sqrt (n_features) für die Klassifizierung und max_features = n_features für die Regression zu setzen.

Diese Heuristik ergibt sich aus diesem Papier: http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf

In jedem Fall ist es natürlich immer eine bessere Idee, um Cross-validate dieser Parameter.

+0

Danke für die Referenz! Wenn ich die zufällige Gesamtstruktur mit max_features = n_features und bootstrap = False verwende, wäre es richtig zu sagen, dass es sich im Wesentlichen wie ein einzelner Entscheidungsbaum verhält (nur mit viel Rechenaufwand) – d1337

+2

Ja, in diesem Fall sind alle Bäume die Gleiches (modulo einige Verbindungen, die passieren können, wenn sie nach den besten Spalten suchen). –

+0

Wenn max_features = n_features, dann wird die zufällige Subraum-Methode nicht einmal verwendet? –

0

Beachten Sie, dass Sie einstellen müssen:

max_features = 'sqrt' 

Statt der vorgeschlagen:

max_features=sqrt(n_features) 

abhängig von der Version Sie ausführen.

Verwandte Themen