Ich verwende den Random Forest-Klassifikator im Scikit-Paket und habe die F1-Werte im Vergleich zur Größe des Trainingssets aufgezeichnet. Das Rot ist das F1-Ergebnis des Trainingssatzes und das Grün ist das Ergebnis für den Validierungssatz. Das ist ungefähr das, was ich erwartet habe, aber ich hätte gerne einen Ratschlag zur Interpretation.Wie interpretieren Sie die Ergebnisse einer Trainings/Validierungs-Lernkurve?
- Ich sehe, dass es eine signifikante Abweichung ist, noch die Validierung Kurve erscheint konvergieren werden. Sollte ich annehmen, dass das Hinzufügen von Daten die Varianz in Anbetracht der Konvergenz wenig beeinflussen würde, oder gehe ich zum Schluss über die Konvergenzrate?
- Ist die Varianz hier signifikant genug, um weitere Maßnahmen zu ergreifen, die die Verzerrung leicht erhöhen können? Ich weiß, dass dies eine ziemlich domänenspezifische Frage ist, aber ich frage mich, ob es allgemeine Richtlinien gibt, wie viel Varianz ein bißchen Abwägung wert ist.
Vielen Dank für die ausführliche Antwort! – user123959