2016-04-07 21 views
2

Ich baue auf meinem günstigen question, weil es ein weiteres Problem gibt.Wie berechnet man die Wahrscheinlichkeit eines Punktes mit einem Wahrscheinlichkeitsverteilungsobjekt?

Ich habe in Matlab eine normale Verteilung auf meine Daten Vektor: PD = fitdist(data,'normal'). Jetzt habe ich einen neuen Datenpunkt (z. B. x = 0,5) und ich möchte seine Wahrscheinlichkeit berechnen.

Die Verwendung von cdf(PD,x) funktioniert nicht, weil es die Wahrscheinlichkeit gibt, dass der Punkt kleiner oder gleich x ist (aber nicht genau x). Die Verwendung von pdf(PD,x) ergibt nur die Dichte, aber nicht die Wahrscheinlichkeit und kann daher größer als eins sein.

Wie kann ich die Wahrscheinlichkeit berechnen?

Antwort

1

Angenommen, Sie haben eine Zufallsvariable X, die die Normalverteilung mit Mittelwert folgt mu und Standardabweichung s.

Sei F die kumulative Verteilungsfunktion für die Normalverteilung mit Mittelwert mu und Standardabweichung s. Die Wahrscheinlichkeit, dass die Zufallsvariable X zwischen a und b fällt, das ist P (a < X < = b) = F (b) - F (a).

in Matlab Code:

P_a_b = normcdf(b, mu, s) - normcdf(a, mu, s); 

Hinweis: Beachten Sie, dass die Wahrscheinlichkeit X genau gleich 0,5 (oder einen bestimmten Wert) Null ist! Eine Reihe von Ergebnissen wird eine positive Wahrscheinlichkeit haben, aber eine unzureichende Summe einzelner Ergebnisse wird eine Wahrscheinlichkeit von Null haben.

+0

Vielen Dank, aber was ich ursprünglich wollte, ist P (X = a), das heißt a = b, die F (b) geben - F (a) = F (a) - F (a) = 0 – machinery

+0

@ machinery ja , das ist richtig. Und deshalb fragt niemand nach P (X = a) für die Normalverteilung oder die meisten anderen kontinuierlichen Verteilungen (mit der möglichen Ausnahme während Tests oder Hausaufgabenfragen, um das Verständnis zu testen). P (X = a) = 0 für irgendeine Zufallsvariable X mit einer kontinuierlichen Wahrscheinlichkeitsdichtefunktion. –

+0

Ok, aber in einem (gaussian) naiven Bayes Klassifikator passen Sie eine normale Verteilung für jedes Feature an und dann müssen Sie P (X = a) für einen neuen Datenpunkt berechnen ... Kann ich einfach den PDF Wert in solchen verwenden ein Fall? Natürlich kann pdf größer als eins werden, aber höherer pdf Wert bedeutet höhere Wahrscheinlichkeit (Dichte). – machinery

4

Wenn die Verteilung kontinuierlich ist, dann ist die Wahrscheinlichkeit eines beliebigen Punktes x 0, fast definitionsgemäß kontinuierliche Verteilung. Wenn die Verteilung diskret ist, und darüber hinaus ist die Unterstützung der Verteilung eine Teilmenge der Menge der ganzen Zahlen, wird für jede ganze Zahl x seine Wahrscheinlichkeit ist

cdf(PD,x) - cdf(PD,x-1) 

Allgemeiner gesagt, für jede Zufallsvariable X, welche auf ganze Zahl nimmt Werte sind die Wahrscheinlichkeitsmassenfunktion f(x) und die kumulativen Verteilungs F(x) durch

f(x) = F(x) - F(x-1) 

die rechte bezogene Seite als diskretes Derivat interpretiert werden kann, so ist dies eine direkte Analogon der Tatsache, dass der PDF im kontinuierlichen Fall ist die Ableitung des cdf.

Ich bin mir nicht sicher, ob Matlab einen direkteren Weg hat, an der Wahrscheinlichkeits-Massenfunktion in Ihrer Situation zu kommen, als das cdf so durchzugehen.

Im kontinuierlichen Fall ist Ihre Frage nicht sehr sinnvoll, da, wie ich oben sagte, die Wahrscheinlichkeit 0 ist. Nicht-Null-Wahrscheinlichkeit in diesem Fall ist etwas, das Intervalle statt einzelne Punkte anhaftet. Sie können immer noch nach der Wahrscheinlichkeit fragen, einen Wert in der Nähe vonx zu erhalten - aber dann müssen Sie entscheiden, was Sie mit "in der Nähe" meinen. Wenn beispielsweise x eine Ganzzahl ist, möchten Sie vielleicht die Wahrscheinlichkeit kennen, einen Wert zu erhalten, der auf x gerundet wird. Das wäre:

cdf(PD, x + 0.5) - cdf(PD, x - 0.5) 
+0

Vielen Dank für Ihre Antwort. Wahrscheinlichkeitstheorie ist nicht meine Stärke. ;) Die Verteilung ist in meinem Fall kontinuierlich (Normalverteilung). Was bedeuten RHS und PMF? Ich denke, Ihre Erklärung ist für diskrete Verteilungen, aber wie kann ich sie für kontinuierliche Verteilungen anpassen? – machinery

+0

@machinery Sie sollten sich wirklich darüber informieren, wie Sie die Wahrscheinlichkeit verschiedener Ergebnisse mithilfe einer Wahrscheinlichkeitsdichtefunktion und/oder einer kumulativen Verteilungsfunktion berechnen können. Mit einer diskreten Verteilung summieren Sie die Wahrscheinlichkeit der verschiedenen kleineren Komponentenereignisse, um die Wahrscheinlichkeit eines größeren Ereignisses zu erhalten. (z. B. die Wahrscheinlichkeit, dass ein Würfelwurf X 3 oder weniger ist, ist die Wahrscheinlichkeit P (X = 1) + P (X = 2) + P (X = 3).) Für eine kontinuierliche Verteilung ist das Analogon zum Summieren einer Wahrscheinlichkeitsmasse Funktion integriert eine Wahrscheinlichkeitsdichtefunktion. Integration ist im Grunde eine Zusammenfassung. –

+0

@MatthewGunn Das Integrieren einer Wahrscheinlichkeitsdichte-Funktion ist genau das, was die Matlab-PDF-Funktion denkt, aber das kann größer werden als eine, die keine echte Wahrscheinlichkeit mehr ist. – machinery

Verwandte Themen