Ich verwende derzeit LogisticRegression von scikit-learn im Problem der Multi-Klassen-Kategorisierung. Ich habe mich für LogisticRegression entschieden, da ich einige Artikel gelesen habe, die es als einen gut kalibrierten Algorithmus im Hinblick auf Vorhersagewahrscheinlichkeiten beschreiben, den es zurückgibt.LogisticRegression Vorhersage Wahrscheinlichkeit
Für jedes Ergebnis des Klassifikators überprüfe ich seine Vorhersagegenauigkeit sowie einen Abstand zwischen der klassifizierten Beobachtung und den übrigen Beispielen im Trainingssatz mit der gleichen Entscheidungsklasse.
Ich bin überrascht, dass die Ergebnisse für einig obwohl eine Klasse hat mit mehr als 90% Vertrauen vorausgesagt worden, die Kosinusähnlichkeit Maßnahme legt nahe, dass das gegebene Beispiel im Durchschnitt fast senkrecht zur Reihe von Beispielen mit dem gleichen Klasse im Trainingssatz.
Kann jemand bitte einen Hinweis geben, warum eine solche Diskrepanz beobachtet werden könnte?
Ich würde erwarten, dass der LogisticRegression-Algorithmus für die Beispiele, die wesentlich von den übrigen Beobachtungen mit derselben Klasse entfernt sind, niedrige Vorhersagewahrscheinlichkeiten zurückgibt.