In dem R-Paket rpart gegeben, was die Größe der Bäume bestimmt für einen Entscheidungsbaum in der CP Tabelle dargestellt? Im folgenden Beispiel zeigt die CP-Tabelle standardmäßig nur Bäume mit 1, 2 und 5 Knoten an (als nsplit = 0, 1 bzw. 4).Baum Größen von CP Tabelle in rpart
library(rpart)
fit <- rpart(Kyphosis ~ Age + Number + Start, method="class", data=kyphosis)
> printcp(fit)
Classification tree:
rpart(formula = Kyphosis ~ Age + Number + Start, data = kyphosis,
method = "class")
Variables actually used in tree construction:
[1] Age Start
Root node error: 17/81 = 0.20988
n= 81
CP nsplit rel error xerror xstd
1 0.176471 0 1.00000 1.00000 0.21559
2 0.019608 1 0.82353 0.94118 0.21078
3 0.010000 4 0.76471 0.94118 0.21078
Gibt es eine rpart()
inhärente Regel verwendet, um zu bestimmen, welche Größe der Bäume zu präsentieren? Und ist es möglich, printcp()
zu zwingen, Kreuzvalidierungsstatistiken für alle möglichen Baumgrößen zurückzugeben, d.h. für das obige Beispiel auch Zeilen für Bäume mit 3 und 4 Knoten (nsplit = 2, 3)?
Vielen Dank für Ihre Antwort, aber ich hatte den Eindruck, dass 'minsplit' und' cp' sind in wachsenden den Baum vor dem Kreuzvalidierung wird versucht Parameter verwendet - anstatt es danach beschneiden, was was ist mein Frage und die CP-Tabelle beziehen sich auf. Wenn ich falsch verstanden habe, könnten Sie in der Lage sein, zu raten, warum die obige Ausgabe nur nsplit = 0, 1, 4 darstellt und welche geeigneten Werte von "minsplit" und "cp" nsplit = 0, 1, 2, 3 darstellen könnten. 4? übrigens 'Zusammenfassung (fit)' hat mir keine Kreuzvalidierung Statistiken für alle Werte von nsplit - der CP Tabelle zeigte die gleiche ist wie die Frage. – alopex