In scikit-learn ist das C das Inverse der Regularisierungsstärke (link). Ich habe manuell drei Trainings mit denselben Parametern und Bedingungen berechnet, außer dass ich drei verschiedene Cs verwende (d. H. 0,1, 1,0 und 10,0). Ich verglich den F-Score im Validierungssatz und identifiziere den "besten" C. Allerdings hat mir jemand gesagt, dass dies falsch ist, da ich den Validierungssatz nicht zur Optimierung von C verwenden soll. Wie soll ich das richtige C auswählen? Und welche Rechtfertigung habe ich, wenn ich den Standard C (= 1.0) von scikit-learn wählen soll?Wie finden Sie den Regularisierungsparameter in der logistischen Regression in Python scikit-learn?
Q
Wie finden Sie den Regularisierungsparameter in der logistischen Regression in Python scikit-learn?
0
A
Antwort
1
Wie soll ich das richtige C auswählen?
Sie haben drei Datensätze: Training, Validierung und Tests. Sie trainieren im Zug, setzen Hyperparameter für die Validierung und bewerten sie schließlich beim Test. Insbesondere wenn Daten klein sind, können Sie dies mit k-facher CV-Mode tun, wo Sie zuerst CV für Zug-Test-Splits verwenden, und dann noch einen weiteren, der den Zug weiter zum eigentlichen Zug und zur Validierung teilt.
Und welche Rechtfertigung habe ich, wenn ich den Standard C (= 1.0) von scikit-learn wählen soll?
Es gibt keine Rechtfertigung außer einem beliebigen Prior auf Gewichte zu setzen (daher wäre jeder andere Wert gleich berechtigt).
Verwandte Themen
- 1. Regularisierungsparameter in On-line-Ridge-Regression
- 2. Codierungsmethode der logistischen Regression in Scikit-learn
- 3. Plotten Entscheidungsgrenze der logistischen Regression
- 4. Wie die Entscheidungsgrenze der logistischen Regression in scikit plotten lernen
- 5. Ändern der Referenzgruppe für kategoriale Prädiktorvariablen in der logistischen Regression
- 6. Python: Verwendung der multinomialen logistischen Regression mit SKlearn
- 7. Confused mit dem Referenzpegel in der logistischen Regression in R
- 8. PCA reduziert die Leistung der logistischen Regression?
- 9. Wie Analysieren Panel-Daten in R mit logistischen Regression (GlmmML)?
- 10. Wie berechnet man die Gewichte der logistischen Regression?
- 11. Wie erhöht man die Modellgenauigkeit der logistischen Regression in Scikit Python?
- 12. Mit logistischen Regression, um den Parameter Wert vorherzusagen
- 13. Validieren einer ordinalen logistischen Regression in R (mit rpy2)
- 14. Auswählen der zu normalisierenden Variablen bei Anwendung der logistischen Regression
- 15. TensorFlow Returning nan Bei der Implementierung der Logistischen Regression
- 16. Wie erhalten Sie die Koeffizienten der besten logistischen Regression in einem Spark-ml CrossValidatorModel?
- 17. Durchführen der logistischen Regression mit einer großen Anzahl von Funktionen?
- 18. In Python-Statsmodels kann ich den Standardfehler der Regression
- 19. Können Sie Zählungen in der sklearn logistischen Regressionseingabe verwenden?
- 20. Logistische Regression in Python. Wahrscheinlichkeitsschwelle
- 21. Was ist die Umkehrung der Regularisierungsstärke in der logistischen Regression? Wie sollte es meinen Code beeinflussen?
- 22. Verändert Caffe den Regularisierungsparameter auf Bias?
- 23. Schrittweise Regression in Python
- 24. Wie kann ich den optimalen Cut-off-Punkt der ROC in der logistischen Regression als eine Zahl
- 25. Unklare RandomForest Dokumentation in ScikitLearn
- 26. Mehrere Regression in Python
- 27. Logistische Regression in Python
- 28. Wie kann ich die Vorhersagefunktion in R in einer vor Jahren angepassten logistischen Regression verwenden?
- 29. glmnet: Woher weiß ich, welche Faktorstufe meiner Antwort in der logistischen Regression als 1 kodiert ist?
- 30. LogLik von Hand aus einer logistischen Regression berechnen
In der Situation, in der das C basierend auf der Leistung des Testsets gewählt wird, ist es ein Beispiel für Überanpassung? Ich versuche zu verstehen, warum es eine schlechte Idee ist, dies zu tun. – KubiK888
es ist nicht ** Beispiel ** der Überanpassung, es ist Beispiel für ** ungültiger Schätzer **, einfach können Sie ein so gewähltes Modell nicht vertrauen. Es hängt mit der Überanpassung in diesem Sinne zusammen, dass es dazu führen kann, aber das Problem ist tiefer - einfach, wenn Sie Daten verwenden, um ** irgendwelche ** Entscheidungen über das Modell zu treffen, und auch seine Bewertung - die Bewertung ist ** voreingenommen ** und folglich - nutzlos. – lejlot