2017-10-28 7 views
0

Ich habe ein Problem, einige Grundlagen zu verstehen, also bin ich mit einem Regressionsbaum fest. Ich verwende einen Klassifizierungsbaum von rpart, um den Einfluss von Umweltparametern auf einen gemessenen Baumwachstumsfaktor I zu überprüfen. Lange Geschichte kurz:rpart: Sind Trainingsdaten erforderlich

Was ist der Zweck der Aufteilung von Daten in Training und Testdaten und (wann) brauche ich es? Meine Recherchen zeigten Beispiele, in denen sie es entweder nicht tun oder tun, aber ich kann die Hintergrundgeschichte nicht finden. Ist es nur um den Schnitt zu überprüfen?

Vielen Dank!

Antwort

1

Sie müssen vor dem Training des Modells in Trainings- und Testdaten aufteilen. Die Trainingsdaten helfen dem Modell lernen, während die Testdaten validieren das Modell.

Die Aufteilung erfolgt vor dem Ausführen des Modells, und das Modell muss neu trainiert werden, wenn Feineinstellungen oder Änderungen vorgenommen werden.

Wie Sie vielleicht wissen, ist die allgemeine Prozess für Postpruning ist folgende:

1) Split data into training & test (validation) sets 

2) Build decision tree from training set 

3) For every non-leaf node N, prune the subtree rooted by N and 
replace with the majority class. Then test accuracy with a 
validation set. This validation set could be the one defined before 
or not. 

Dies alles bedeutet, dass Sie wahrscheinlich auf dem richtigen Weg sind und dass ja, die gesamte Datenmenge verwendet wahrscheinlich wurde das testen Genauigkeit des Beschneidens.

+0

Ein spätes Dankeschön! Ich beherrsche es jetzt, aber mein Modell verliert durch Beschneiden alle Knoten, so dass nur noch ein Knoten übrig bleibt. Nach dem Testen ist der Mittelwert und der SD des eingestellten Sets wirklich besser, sieht einfach komisch aus: D – Qiyuan

Verwandte Themen