Wie finden Sie den Regularisierungsparameter in der logistischen Regression in Python scikit-learn?

In scikit-learn ist das C das Inverse der Regularisierungsstärke (link). Ich habe manuell drei Trainings mit denselben Parametern und Bedingungen berechnet, außer dass ich drei verschiedene Cs verwende (d. H. 0,1, 1,0 und 10,0). Ich verglich den F-Score im Validierungssatz und identifiziere den "besten" C. Allerdings hat mir jemand gesagt, dass dies falsch ist, da ich den Validierungssatz nicht zur Optimierung von C verwenden soll. Wie soll ich das richtige C auswählen? Und welche Rechtfertigung habe ich, wenn ich den Standard C (= 1.0) von scikit-learn wählen soll?Wie finden Sie den Regularisierungsparameter in der logistischen Regression in Python scikit-learn?

Quelle

2016-10-11 KubiK888

Wie soll ich das richtige C auswählen?

Sie haben drei Datensätze: Training, Validierung und Tests. Sie trainieren im Zug, setzen Hyperparameter für die Validierung und bewerten sie schließlich beim Test. Insbesondere wenn Daten klein sind, können Sie dies mit k-facher CV-Mode tun, wo Sie zuerst CV für Zug-Test-Splits verwenden, und dann noch einen weiteren, der den Zug weiter zum eigentlichen Zug und zur Validierung teilt.

Und welche Rechtfertigung habe ich, wenn ich den Standard C (= 1.0) von scikit-learn wählen soll?

Es gibt keine Rechtfertigung außer einem beliebigen Prior auf Gewichte zu setzen (daher wäre jeder andere Wert gleich berechtigt).

Quelle

2016-10-11 19:34:40 lejlot

In der Situation, in der das C basierend auf der Leistung des Testsets gewählt wird, ist es ein Beispiel für Überanpassung? Ich versuche zu verstehen, warum es eine schlechte Idee ist, dies zu tun. – KubiK888

es ist nicht ** Beispiel ** der Überanpassung, es ist Beispiel für ** ungültiger Schätzer **, einfach können Sie ein so gewähltes Modell nicht vertrauen. Es hängt mit der Überanpassung in diesem Sinne zusammen, dass es dazu führen kann, aber das Problem ist tiefer - einfach, wenn Sie Daten verwenden, um ** irgendwelche ** Entscheidungen über das Modell zu treffen, und auch seine Bewertung - die Bewertung ist ** voreingenommen ** und folglich - nutzlos. – lejlot

Wie finden Sie den Regularisierungsparameter in der logistischen Regression in Python scikit-learn?

Antwort

Verwandte Themen