2017-12-13 2 views
1

Ich schätze es, Zufallszahlen zu sammeln, das Trainingssatz für jeden Baum zufällig neu abzutasten, und zufällige Wälder wählen zufällig eine Teilmenge von Merkmalen für jeden Baum aus.Probiert eine zufällige Gesamtstruktur zufällig die Daten für jeden Baum?

Meine Frage ist, ist eine zufällige Gesamtstruktur auch Resample das Trainingssatz sowie eine zufällige Teilmenge von Features. Ist es in der Tat doppelt zufällig?

Antwort

1

Die Antwort ist ja, die meisten Male, wenn Sie wollen.

Zufällige Gesamtstrukturen laden die Daten per Bootstrap und wählen nach dem Zufallsprinzip Features aus. bootstrapping bedeutet, dass ein Datensatz mit der gleichen Größe wie der ursprüngliche Datensatz abgetastet wird, jedoch ersetzt wird. Also, wenn Sie N Datenpunkte haben, wird jeder Baum N Datenpunkte verwenden, aber einige meiner Duplikate (wie es sie eins nach dem anderen mit Ersatz erproben).

Allerdings liegt es wirklich an Ihnen, was Sie tun. In der Sklearn-Implementierung ist der Standard Bootstrap, aber Sie können bootstarp = False markieren, und dann haben Sie nur die zufällige Auswahl von Features. Siehe die Dokumentation hier: http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

Verwandte Themen