Ich versuche, das zufällige Waldmodell zu verwenden, um Geschlecht basierend auf Höhe, Gewicht und Anzahl der Geschwister vorherzusagen. Ich habe die Daten von einem viel größeren Datensatz, der Dutzende von Variablen enthält, aber ich habe es in diesem "sauberen" data.frame mit weggelassenen NA-Werten und nur die 4 Variablen, die ich interessiere, die letzte Spalte Geschlecht .Index außerhalb der Grenzen Fehler, zufälliges Waldmodell
Ich habe versucht, mit dem Code zu fummeln und überall zu suchen, aber ich kann keine konkrete Lösung finden.
Hier ist der Code:
ind <- sample(nrow(clean),0.8*nrow(clean))
train <- clean[ind,]
test <- clean[-ind,]
rf <- randomForest(Gender ~ ., data = train[,1:4], ntree = 20)
pred <- predict(rf, newdata = test[,-c(length(test))])
cm <- table(test$Gender, pred)
cm
und hier ist die Ausgabe:
Error in `[.default`(table(observed = y, predicted = out.class), levels(y), : subscript out of bounds
Traceback:
1. randomForest(Gender ~ ., data = train[, 1:4], ntree = 20)
2. randomForest.formula(Gender ~ ., data = train[, 1:4], ntree = 20)
3. randomForest.default(m, y, ...)
4. table(observed = y, predicted = out.class)[levels(y), levels(y)]
5. `[.table`(table(observed = y, predicted = out.class), levels(y),
. levels(y))
6. NextMethod()
Können Sie uns eine Idee geben, was in 'clean' ist? – G5W
sauber hat 4 Spalten von jeweils etwa tausend Zeilen: Höhe (in Zentimetern), Gewicht (in Kilogramm), Anzahl der Geschwister (Integer) und Geschlecht ("männlich" oder "weiblich"). –