2016-07-13 10 views
1

Ich habe vor kurzem gelernt, das R RecordLinkage-Paket zu verwenden. An einem sehr kleines Beispiel mit Verknüpfung 2 Datensätze, eine mit 8 Zeilen und das andere mit 11, erhalte ich die Ergebnisse:R RecordLinkage-Paket, Alpha und Beta-Fehler verstehen

Linkage Data Set 

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches 
4 non-matches 
0 pairs with unknown status 


Weight distribution: 

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9] (0.9,1] 
     2   0   2   0   1   3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 


Classification table: 

      classification 
true status N P L 
     FALSE 4 0 0 
     TRUE 1 0 3 

Was bin Fehler zu verstehen, ist die Beziehung zwischen dem Alpha-Fehler, Beta-Fehler und Genauigkeit mit der Klassifizierungstabelle. Wo sind die Zahlen unterhalb von genau kommen, wie werden sie berechnet:

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 

Jede Hilfe sehr

geschätzt

Antwort

2

Alpha und Beta-Fehler sind statistische Maßnahmen, besser bekannt als Typ I und Typ-II-Fehler auf. In statistischer Hinsicht ist der Alphafehler die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist; Der Beta-Fehler ist die Wahrscheinlichkeit, die Nullhypothese geltend zu machen, da sie nicht wahr ist (vergleiche z. B. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/).

Im Falle einer Datensatzverknüpfung ist die Nullhypothese, dass ein Datensatzpaar eine Übereinstimmung ist, d. H. Die zwei Datensätze repräsentieren die gleiche Entität. Somit ist der Alpha-Fehler die Wahrscheinlichkeit, ein Paar als nicht übereinstimmend zu bezeichnen, da es tatsächlich eine Übereinstimmung ist (falsch negativ). Dieser Fehler wird wie folgt berechnet: (Anzahl der Übereinstimmungen, die als "Nicht-Link" klassifiziert wurden)/(Anzahl der Übereinstimmungen). [1] Im obigen Beispiel gibt es 4 Übereinstimmungen, von denen 1 nicht erkannt wird, daher ist der Alpha-Fehler 1/4 = 0,25.

In ähnlicher Weise ist Beta-Fehler die Wahrscheinlichkeit, ein Paar als Übereinstimmung zu klassifizieren, da es sich wirklich um eine Nicht-Übereinstimmung handelt (falsch positiv). Es wird berechnet als (Anzahl der Nicht-Übereinstimmungen, die als "Verbindung" klassifiziert sind)/(Anzahl der Nicht-Übereinstimmungen). Im obigen Beispiel gibt es keine falsch-positive Klassifikation, so dass der Beta-Fehler 0. Lassen Sie sich einen Tisch unterschiedliche Klassifizierung übernehmen:

  classification 
true status N P L 
     FALSE 2 0 2 
     TRUE 1 0 3 

In diesem Fall gibt es vier nicht-Matches, davon 2 falsch eingestuft als Links, so ist der Beta-Fehler 2/4 = 0,5.

Schließlich ist die Genauigkeit nur der Anteil der korrekten Klassifizierungen unter allen Paaren (siehe https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics). In der Klassifizierungstabelle aus der Frage gibt es 7 korrekte Klassifikationen (4 Nicht-Übereinstimmungen, 3 Übereinstimmungen), so dass die Genauigkeit 7/8 = 0,875 ist.

[1] Ich benutze '(non) link' anstelle von '(non-) match', wenn ich das Ergebnis des Klassifikationsalgorithmus im Gegensatz zum realen Status meine.

+0

Danke, sehr klare Erklärung –