Wie behandelt die R-Implementierung von Boosted Regression Trees (Paket gbm) standardmäßig fehlende Werte der Prädiktorvariablen? Sind sie unterstellt und wenn ja, nach welchem Algorithmus?R: Wie gehen verstärkte Regressionsbäume mit fehlenden Daten um?
Hintergrund meiner Frage: Ich habe die Analyse vor fast einem Jahr gemacht und ich habe die Skripte von Elith et al. 2008 (Ein Arbeitsleitfaden zu verstärkten Regressionsbäumen, Journal of Animal Ecology 77, 802-813), um gbm aufzurufen. Ich wurde mir nun bewusst, dass ich für einige der prädiktiven Variablen NAs hatte, und ich frage mich, wie die verstärkten Regressionsbäume mit ihnen umgegangen sind. Beim Durchstöbern verschiedener Handbücher und Papiere fand ich Aussagen wie "verstärkte Regressionsbäume können fehlende Werte aufnehmen" und ähnliches, aber ich konnte keine genaue Beschreibung dessen finden, was gbm mit fehlenden Werten macht. Die Analyse selbst lief ohne Probleme, also muss gbm sie auf die eine oder andere Art behandelt haben. Im Handbuch von gbm gibt es sogar ein Beispiel, in dem absichtlich NAs eingeführt werden, um zu demonstrieren, dass gbm ohne Probleme funktioniert. Nun würde ich gerne wissen, was gbm genau mit NAs macht (überspringe sie, unterstelle sie, ...?).
Diese Frage erscheint Wegthema zu sein, weil es über die Umsetzung eines statistischen Algorithmus ist. Es ist vielleicht besser für Cross Validated geeignet. –
@ SimonO101: Ich bezweifelte, welches das richtige Forum wäre. Ich werde es bei Crossvalidated posten. – user7417
Ich würde es eine Weile lassen - die Website ist Community-Run. Wenn der Konsens besteht, dass dies nicht der Fall ist, wird die Frage geschlossen und Sie wissen um Lebenslauf. Im Moment ist es nur ich, der denkt, dass es besser für CV geeignet ist! –