0

Ich verwende derzeit LogisticRegression von scikit-learn im Problem der Multi-Klassen-Kategorisierung. Ich habe mich für LogisticRegression entschieden, da ich einige Artikel gelesen habe, die es als einen gut kalibrierten Algorithmus im Hinblick auf Vorhersagewahrscheinlichkeiten beschreiben, den es zurückgibt.LogisticRegression Vorhersage Wahrscheinlichkeit

Für jedes Ergebnis des Klassifikators überprüfe ich seine Vorhersagegenauigkeit sowie einen Abstand zwischen der klassifizierten Beobachtung und den übrigen Beispielen im Trainingssatz mit der gleichen Entscheidungsklasse.

Ich bin überrascht, dass die Ergebnisse für einig obwohl eine Klasse hat mit mehr als 90% Vertrauen vorausgesagt worden, die Kosinusähnlichkeit Maßnahme legt nahe, dass das gegebene Beispiel im Durchschnitt fast senkrecht zur Reihe von Beispielen mit dem gleichen Klasse im Trainingssatz.

Kann jemand bitte einen Hinweis geben, warum eine solche Diskrepanz beobachtet werden könnte?

Ich würde erwarten, dass der LogisticRegression-Algorithmus für die Beispiele, die wesentlich von den übrigen Beobachtungen mit derselben Klasse entfernt sind, niedrige Vorhersagewahrscheinlichkeiten zurückgibt.

Antwort

1

Die logistische Regression/Klassifikation liefert Ergebnisse in Bezug auf eine Entscheidungsgrenze, aber es gibt keine Garantie, dass Punkte auf der gleichen Seite der Grenze (dh, die zur selben Klasse gehören) kleine Kosinusabstände (oder sogar kleine euklidische) haben Entfernungen).

Betrachten Sie Punkte in der x-y-Ebene, in denen alle Punkte unter y = 0 zu einer Klasse gehören und alle darüber liegenden Punkte zu der anderen Klasse gehören. Die Punkte (-1000, 1) und (1000, 1) gehören zu derselben Klasse, haben aber einen relativ großen Kosinusabstand zwischen ihnen. Auf der anderen Seite gehören die Punkte (1000, 1) und (1000, -1) zu verschiedenen Klassen, haben aber einen sehr kleinen Kosinusabstand.

Verwandte Themen