Verwende Random Forest mit scikit learn. RF überlagert die Daten und Vorhersageergebnisse sind schlecht.Spezifische Kreuzvalidierung mit zufälliger Gesamtstruktur
Die Überanpassung nicht auf die Parameter der RF abhängt: NBtree, Depth_Tree
Überanpassung geschieht mit vielen verschiedenen Parametern (es über grid_search getestet).
Um Abhilfe zu schaffen: Ich zwecke die anfänglichen Daten/Down-Sampling einige Ergebnisse , um die Anpassung zu beeinflussen (manuelle Vor-Prozess Geräuschprobe).
Loop on random generation of RF fits,
Get RF prediction on the data for prediction
Select the model which best fits the "predicted data" (not the calibration data).
Das Monte carlos sehr verbraucht, Nur frage mich, ob es eine andere Art und Weise ist Kreuzvalidierung auf gelegentlichem Wald zu tun? (dh NICHT die Hyper-Parameter-Optimierung).
EDITED
Lesen Sie einfach die Dokumentation. Vor allem [dies] (http://scikit-learn.org/stable/modules/grid_search.html#grid-search). – sascha
Verwenden Sie oob_score oder Genauigkeit, wenn Sie sagen, dass Ihr Modell überbaut? –
Blick auf die Konfusionsmatrix Falsch Positiv/Negativ .... Training ist OK. Aber, aus der Probe ist nicht konsistent gut (in der Regel schlecht, manchmal in Ordnung). – Brook