2016-07-15 2 views
0

Die meisten Dinge, die ich gesehen habe, verwenden nur die maximale Wahrscheinlichkeit, die in Ordnung scheint, aber gibt Ihnen keinen Hinweis auf Vertrauen. Die relativen Wahrscheinlichkeiten sollten auch wichtig sein, oder? Lassen Sie mich erklären:Wie interpretiert man im Allgemeinen die Wahrscheinlichkeiten, die von einem Multi-Label-Klassifikator erzeugt werden?

Im Falle eines binären Klassifikator an, dass Ihre Kategorien A und B.

P (A) = 0,01, P (B) = 0,99 ist ein Klassifizierungsergebnis, das sehr stark zeigt ' EIN'.

P (A) = 0,6, P (B) = 0,4 ist eine weniger sichere A-Klassifizierung.

Sobald Sie Kategorie werfen 'C' in die Mischung, könnten Sie P (A) = 0,8, P (B) = 0,1, P (C) = 0,1, was erhalten ist stark 'A'

Sie könnten aber auch erhalten Sie eine der folgenden:

  1. P (A) = 0,50, P (B) = 0,25, P (C) = 0,25

  2. P (A) = 0,50 , P (B) = 0,49, P (C) = 0,01

Jetzt ist der erste Fall weniger zuversichtlich, würde aber immer noch 'A' kommen Wenn max mein einziges Kriterium wäre, wäre der zweite Fall genau derselbe, aber eindeutig nicht.

In Fall 1 ist 'A' nicht so überzeugt von einem Ergebnis, aber es ist wahrscheinlich nichts anderes. In Fall 2 ist P (A) immer noch 0,5, aber es ist im Grunde dasselbe wie P (B), was bedeutet, dass ich nicht wirklich darauf vertrauen sollte, dass die Beobachtung ein 'A' ist erfassen Sie diesen Begriff der relativen Sicherheit? Ich habe versucht, eine Lösung zu finden, die keine kluge Sammlung von if-Aussagen ist, aber nichts Gutes hervorgebracht hat.

+0

In beiden Fällen ist P (A) = 0,5, also ist Ihr "Glaube" an die Beobachtung ein "A" ist das gleiche. –

+0

In einem Wahrscheinlichkeitssinn würde ich zustimmen. Ist es sinnvoll, Klassifizierungsergebnisse als reine Wahrscheinlichkeiten zu interpretieren? Intuitiv sehe ich es als den Klassifikator sagen "Wenn ich wählen muss, ist A der wahrscheinlichste Kandidat" im ersten Fall, und nicht in der Lage, zwischen A und B im zweiten Fall zu unterscheiden – user3765410

+0

Diese Frage ist besser geeignet für [Cross Validated] (http://stats.stackexchange.com) – Tchotchke

Antwort

1

Was Sie wahrscheinlich bekommen, wird von der Idee der Support Vector Machines erfasst. Im SVM-Klassifikator zielen wir darauf ab, die Hyperebene zu finden, die den Abstand zwischen den nächsten Beispielen der beiden Gruppen, die sie trennt, maximiert. Für Details schauen Sie bitte in Wikipedia oder irgendeinen maschinellen Lerntext auf SVM. In diesem Ansatz klassifizierst du Dinge so, dass die Grenze den größten Spielraum hat.

Für logistische Regressionen verwenden wir die Softmax-Funktion, die nicht Score (i)/Summe (Score all) ist. Es verwendet Exponentialfunktion. Dies maximiert auch die Abstände zwischen den Wahrscheinlichkeiten.

Im Allgemeinen besteht das Ziel des Klassifikationsalgorithmus darin, eine Antwort zu geben, insbesondere für Situationen, die möglicherweise nicht eindeutig sind. Sicher können Sie ein zusätzliches Attribut einwerfen, um zu sagen, wie groß die genaue Wahrscheinlichkeit war, aber das ist normalerweise nicht das primäre Ziel.

Verwandte Themen