Ich verwende Random Forest, um ein Klassifikationsproblem zu machen. Die Antwort hat 5 Klassen. Alle Klassen sind gleichmäßig im Trainingssatz verteilt, jedoch bilden im Testdatensatz zwei bestimmte Klassen die überwiegende Mehrheit. Was es schwierig macht, ist, dass ich im Validierungssatz sehe, dass diese beiden Klassen auch die schlechtesten Genauigkeitsraten haben. Meine Frage ist also, gibt es Möglichkeiten, die Klassifikationsgenauigkeit dieser beiden spezifischen Klassen zu verbessern, um meine Gesamtprognose zu verbessern?Maschinelles Lernen - wie man die Klassifizierung bestimmter Klassen verbessert
Jeder Eingang wird sehr geschätzt!
Danke für die Antwort! Ich denke, das macht Sinn, aber wie erreiche ich das mit dem randomForest-Paket in R? –
Ich bin kein R-Experte. aber, sieh diese SE Frage und Antworten: http://stats.stackexchange.com/questions/46963/how-to-control-the-cost-of-misclassification-in-random-forests. Persönlich würde ich mit Lösung (1) der 2. Antwort beginnen - "absichtlich Ungleichgewicht [der] Datensatz". –