Ich arbeite derzeit an einem Problem mit R. Ich möchte den Klassifikationsbaum über einen Datensatz anwenden, aber das Ergebnis scheint falsch zu sein, da ich das gleiche Problem bereits mit Weka gelöst habe, und Ich habe unterschiedliche Ergebnisse.Entscheidungsbaum Analyse Problem
Ich habe einen Datensatz in einer CSV-Datei wie folgt enthalten:
age,menopause,tumor.size,inv.nodes,node.caps,deg.malig,breast,breast.quad,irradiat,class
40-49,premeno,15-19,0-2,yes,3,right,left_up,no,recurrence-events
50-59,ge40,15-19,0-2,no,1,right,central,no,no-recurrence-events
50-59,ge40,35-39,0-2,no,2,left,left_low,no,recurrence-events
40-49,premeno,35-39,0-2,yes,3,right,left_low,yes,no-recurrence-events
40-49,premeno,30-34,3-5,yes,2,left,right_up,no,recurrence-events
und das ist das Skript:
#Open r file
cancer = read.csv("cancer.csv")
#Data Exploration
summary(cancer)
str(cancer)
#Divide into test and train sets
set.seed(1234)
ind <- sample(2, nrow(cancer), replace=TRUE, prob=c(0.7, 0.3))
trainData <- cancer[ind==1,]
testData <- cancer[ind==2,]
#Build the model
library(party)
cancermodel <- class ~ age + menopause + tumor.size + inv.nodes + node.caps + deg.malig + breast + breast.quad + irradiat
cancertree <- ctree(cancermodel,trainData)
table(predict(cancertree),trainData$class)
#Draw tree
plot(cancertree, type="simple")
#Testset
testPred <- predict(cancertree, newdata = testData)
table(testPred, testData$class)
warum sollten sie gleich sein? – rawr
, weil es den gleichen Algorithmus, den ich in beiden Fällen (Entscheidungsbaum) – Zak
und Ihre zufällig ausgewählten Trainings-und Testdaten angewendet haben, sollten sie die gleichen sein? – rawr