2014-10-14 114 views
28

Wenn wir die F-Measure unter Berücksichtigung von Precision und Recall berechnen, nehmen wir das harmonische Mittel der beiden Takte anstelle eines einfachen arithmetischen Mittelwerts.Warum ist das F-Measure ein harmonisches Mittel und kein arithmetisches Mittel der Precision- und Recall-Messungen?

Was ist der intuitive Grund hinter der harmonischen Mittel und nicht ein einfacher Durchschnitt?

+0

Die Intuition ist es, Präzision und Erinnerung auszugleichen (normalerweise die beste Messung, aber in einigen Fällen möchten Sie die Präzision oder den Erinnerungswert maximieren, was eine andere Geschichte ist). Sie können keinen hohen f-Wert erhalten, wenn einer der beiden sehr niedrig ist. – greeness

+0

http://www.cse.unsw.edu.au/~teachadmin/info/harmonic3.html Dies ist eine gute Ressource zum Verständnis HM –

Antwort

32

Weil es extreme Werte mehr bestraft.

Betrachten Sie eine triviale Methode (z. B. immer Klasse A). Es gibt unendlich viele Datenelemente der Klasse B, und ein einzelnes Element der Klasse A:

Precision: 0.0 
Recall: 1.0 

Wenn die arithmetische Einnahme bedeuten, würde es 50% richtig haben. Trotz der schlimmsten möglichen Ergebnisses! Mit dem harmonischen Mittelwert der F1-Maßnahme ist 0.

Arithmetic mean: 0.5 
Harmonic mean: 0.0 

Mit anderen Worten, eine hohe F1 zu haben, müssen Sie beide eine hohe Präzision und Recall haben.

+0

Wenn der Rückruf 0,0 ist, muss die Genauigkeit größer als 0,0 sein, richtig? Aber ich verstehe den Punkt in Ihrem Beispiel. Schön erklärt - Danke. –

+0

In Ihrem Beispiel ist die Genauigkeit für die Klasse A 0,5 statt 0 und der Aufruf der Klasse A ist 1; Genauigkeit für Klasse B ist 0 und Rückruf von Klasse B ist 0, wie wir. Ich nehme an, dass Ihre ausgewogene Klasse bedeutet, dass die echten Labels A und B sind; jeder gilt für 50% der Daten. – greeness

+0

Lassen Sie uns unendliche Elemente der Klasse B und ein einzelnes Element der Klasse A erstellen. Es ändert nicht die Mathematik hinter F1. –

34

Um zu erklären, zum Beispiel, was der Durchschnitt von 30mph und 40mph ist? Wenn Sie für eine Stunde mit jeder Geschwindigkeit fahren, ist die durchschnittliche Geschwindigkeit über die 2 Stunden tatsächlich das arithmetische Mittel, 35mph.

Allerdings, wenn Sie für die gleiche Strecke bei jeder Geschwindigkeit fahren - sagen Sie 10 Meilen - dann ist die durchschnittliche Geschwindigkeit über 20 Meilen der harmonische Mittelwert von 30 und 40, etwa 34,3 Stundenmeilen.

Der Grund dafür ist, dass die Werte in den gleichen skalierten Einheiten liegen müssen, damit der Durchschnitt gültig ist. Meilen pro Stunde müssen über die gleiche Anzahl von Stunden verglichen werden; um über die gleiche Anzahl von Meilen zu vergleichen, müssen Sie stattdessen die Stunden pro Meile berechnen, was genau das harmonische Mittel ist.

Präzision und Rückruf haben beide wahre positive im Zähler und verschiedene Nenner. Um sie zu mitteln, macht es nur Sinn, ihre Kehrwerte zu mitteln, also das harmonische Mittel.

+4

Danke, das ist ein gutes Argument, warum dies von der Theorie unterstützt wird; Meine Antwort war mehr auf der pragmatischen Seite. –

12

Der harmonische Mittelwert ist das Äquivalent des arithmetischen Mittelwerts für reziproke Größen, die durch das arithmetische Mittel gemittelt werden sollen. Genauer gesagt, mit dem harmonischen Mittel transformierst du alle deine Zahlen in die "durchschnittliche" Form (indem du das Reziproke nimmst), nimmst ihr arithmetisches Mittel und transformierst das Ergebnis zurück in die ursprüngliche Darstellung (indem du wieder das Reziproke nimmst).

Präzision und der Rückruf sind "natürlich" reziprok, weil ihr Zähler der gleiche ist und ihre Nenner unterschiedlich sind. Brüche sind vernünftiger zu mitteln, wenn sie den gleichen Nenner haben.

Für mehr Intuition, nehmen wir an, dass wir die Anzahl der wahren positiven Elemente konstant halten. Dann nehmen Sie implizit das arithmetische Mittel der Falsch-Positiven und Falsch-Negativen, indem Sie das harmonische Mittel der Präzision und des Abrufs nehmen. Es bedeutet im Grunde, dass falsch positive und falsch negative genauso wichtig für Sie sind, wenn die wahren positiven gleich bleiben. Wenn ein Algorithmus N mehr falsch positive Items hat, aber N weniger falsch negative Items (während er dieselben wahren Positiven hat), bleibt das F-Maß gleich.

In anderen Worten: die F-Maßnahme ist geeignet, wenn:

  1. Fehler gleich schlecht sind, ob sie falsch-positive oder falsch-negative Ergebnisse
  2. die Anzahl der Fehler ist, gemessen in Bezug auf die Anzahl der zutreffen Positive
  3. wahre Negative sind uninteressant

Punkt 1 oder nicht wahr sein können, gibt es Varianten des F-Maß gewichtet, dass, wenn diese Annahme verwendet werden kann, ist nicht wahr. Punkt 2 ist ziemlich natürlich, da wir erwarten können, dass die Ergebnisse skalieren, wenn wir mehr und mehr Punkte klassifizieren. Die relativen Zahlen sollten gleich bleiben.

Punkt 3 ist ziemlich interessant. In vielen Anwendungen sind Negative der natürliche Standard und es kann sogar schwer oder willkürlich sein zu spezifizieren, was wirklich als ein echtes Negativ gilt. Zum Beispiel hat ein Feueralarm jede Sekunde, jede Nanosekunde, jedes Mal, wenn eine Planck-Zeit vergangen ist, ein echtes negatives Ereignis usw. Auch ein Felsbrocken hat immer diese wahrhaft negativen Feuererkennungs-Ereignisse.

Oder in einem Gesichtserkennung Fall die meiste Zeit Sie "korrekt zurückgeben" Milliarden von möglichen Bereichen im Bild, aber das ist nicht interessant. Die interessanten Fälle sind, wenn Sie eine vorgeschlagene Erkennung tun zurückgeben, oder wenn Sie zurückgeben sollten.

Im Gegensatz dazu gilt die Klassifikationsgenauigkeit gleichermaßen für echte positive und echte negative und ist besser geeignet, wenn die Gesamtzahl der Proben (Klassifikationsereignisse) wohldefiniert und eher klein ist.

+0

Sehr gut erklärt! –

Verwandte Themen