2016-05-24 6 views
0

Ich habe mehrere Kreuzvalidierungstests ausgeführt und mehrere AUROCs (Area unter der ROC) erhalten. Ich habe herausgefunden, dass die Verteilung dieser AUC einer Normalverteilung folgt. Gibt es dafür eine wissenschaftliche Erklärung? Vielen Dank.Normalverteilung der AUROCs

Antwort

0

Eine normale Verteilung der AUROC-Werte ist nicht möglich.

Weil Normalverteilungen unendlich sind, aber AURUC ist begrenzt auf [0: 1]. Es sieht höchstens vage wie eine Normalverteilung aus. Es ist wahrscheinlicher, dass Sie eine Binomialverteilung beobachten.

Es gibt eine probabilistische Interpretation von AUROC (sorry, ich erinnere mich nicht an die Quelle dafür). Unter der Annahme, dass es eine "wahre" Wahrscheinlichkeit p gibt und Sie k Stichproben von dieser wahren Wahrscheinlichkeit p beobachten, ist die Verteilung der AUROC-Werte möglicherweise B (n, p)/n, dann?

+0

AUCROC ist wie beschrieben an den Bereich [0-1] gebunden. Die Binomialverteilung unterstützt positive Ganzzahlen. Meinst du vielleicht die Beta-Distribution? Oder können Sie klären? –

+0

B (n; p)/n sollte [0; 1] sein –

+0

Es gibt einige sehr gute Papiere darüber: 'Vergleich der nicht-parametrischen Konfidenzintervalle für den Bereich unter der ROC-Kurve einer kontinuierlichen Skala Diagnose-Test ',' Konfidenzintervalle für den Bereich unter der ROC-Kurve ' –

0

Der zentrale Grenzwertsatz wird oft verwendet, um die annähernde Normalität von (Stichproben-) Verteilungen von Statistiken zu rechtfertigen, die für große Datenmengen berechnet wurden. Dies wird offensichtlich für AUC nahe 0 oder 1 zusammenbrechen, weil die Normalverteilung Unterstützung auf der gesamten realen Linie hat.

Warum kümmert es dich? Ist es nur aus Neugier oder versuchen Sie etwas mit dieser Intuition zu tun?

Wenn Sie Intervalle berechnen möchten, ist es eine bessere Technik, den Bootstrap zu verwenden. Wenn Sie die ROCs zweier Modelle vergleichen, können Sie die Paarungsentscheidungen der beiden Modelle starten, um Intervalle für die Differenz zu erhalten.

+0

Der zentrale Grenzwertsatz macht eigentlich Sinn. Ich habe einige der möglichen Techniken zur Berechnung der Konfidenzintervalle überprüft und stelle fest, dass einige davon ausgehen, dass bei einer großen Anzahl von AUCs die sich annähernde Verteilung zu einer Normalverteilung wird, aber natürlich mit der Einschränkung, dass keine negativen Werte auftreten können. aber mit den gleichen Eigenschaften zur gleichen Zeit. –

Verwandte Themen