2016-04-07 6 views
0

Ich verwende den Random Forest-Klassifikator im Scikit-Paket und habe die F1-Werte im Vergleich zur Größe des Trainingssets aufgezeichnet. Das Rot ist das F1-Ergebnis des Trainingssatzes und das Grün ist das Ergebnis für den Validierungssatz. Das ist ungefähr das, was ich erwartet habe, aber ich hätte gerne einen Ratschlag zur Interpretation.Wie interpretieren Sie die Ergebnisse einer Trainings/Validierungs-Lernkurve?

  • Ich sehe, dass es eine signifikante Abweichung ist, noch die Validierung Kurve erscheint konvergieren werden. Sollte ich annehmen, dass das Hinzufügen von Daten die Varianz in Anbetracht der Konvergenz wenig beeinflussen würde, oder gehe ich zum Schluss über die Konvergenzrate?
  • Ist die Varianz hier signifikant genug, um weitere Maßnahmen zu ergreifen, die die Verzerrung leicht erhöhen können? Ich weiß, dass dies eine ziemlich domänenspezifische Frage ist, aber ich frage mich, ob es allgemeine Richtlinien gibt, wie viel Varianz ein bißchen Abwägung wert ist.

Random Forest F1 score validation (Red = training, Green = validation)

Antwort

1

Ich sehe, dass es eine signifikante Abweichung ist, noch die Validierung Kurve konvergieren zu sein scheint. Sollte ich annehmen, dass das Hinzufügen von Daten die Varianz in Anbetracht der Konvergenz wenig beeinflussen würde, oder gehe ich zum Schluss über die Konvergenzrate?

Dies scheint eine echte Konditionierung auf Ihrem Lernverfahren, also insbesondere - Auswahl von Hyperparametern. Es bedeutet also nicht, dass bei verschiedenen Hyperparametern der gleiche Effekt auftritt. Es scheint nur, dass bei gegebener aktueller Einstellung - die Konvergenzrate relativ gering ist, so dass ein Erreichen von 95% wahrscheinlich signifikante Datenmengen erfordern würde.

Ist die Varianz hier signifikant genug, um weitere Maßnahmen zu rechtfertigen, die die Verzerrung leicht erhöhen können? Ich weiß, dass dies eine ziemlich domänenspezifische Frage ist, aber ich frage mich, ob es allgemeine Richtlinien gibt, wie viel Varianz ein bißchen Abwägung wert ist.

Ja, im Allgemeinen - diese Art von Kurven mindestens nicht Option für höhere Vorspannung zurückweisen. Sie übertreffen deutlich das Trainingsset. Auf der anderen Seite, Bäume tun dies normalerweise, so Erhöhung der Verzerrung kann schwierig sein, ohne das Modell zu ändern. Eine Option, die ich vorschlagen würde, geht für Extremely Randomized Trees, die fast das gleiche wie Random Forest ist, aber mit zufällig gewählten Schwelle anstelle der vollständigen Optimierung. Sie haben eine wesentlich größere Verzerrung und sollten diese Kurven ein wenig näher zueinander bringen.

Offensichtlich gibt es keine Garantie - wie Sie sagten, dies ist datenspezifisch, aber das allgemeine Merkmal sieht vielversprechend aus (jedoch kann es erforderlich sein, das Modell zu ändern).

+0

Vielen Dank für die ausführliche Antwort! – user123959

Verwandte Themen