2017-09-27 1 views
0

Ich versuche, die Merkmale der Pima Indians Diabetes Data Set zu analysieren (folgen Sie dem Link, um den Datensatz zu erhalten), indem Sie ihre Wahrscheinlichkeitsdichteverteilungen auftragen. Ich habe ungültige 0 Daten noch nicht entfernt, daher zeigen die Diagramme manchmal ganz links eine Verzerrung. Zum größten Teil, sehen die Verteilungen genau:Warum hat diese Kernel Density Estimation Werte über 1,0?

All Probability Density Distributions

Ich habe ein Problem mit dem Aussehen des Grundstücks für DiabetesPedigree, die Wahrscheinlichkeiten über 1,0 (für x ~ zwischen 0,1 und 0,5) zeigt. So wie ich es verstehe, sollten die kombinierten Wahrscheinlichkeiten gleich 1,0 sein.

Probability Density Distribution for DiatebesPedigree

Ich habe den Code für die DiatebesPedigree Grundstück isoliert, aber das gleiche, indem die dataset_index Wert für die anderen arbeiten:

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
from scipy.stats import gaussian_kde 

dataset_index = 6 
feature_name = "DiabetesPedigree" 
filename = 'pima-indians-diabetes.data.csv' 

data = pd.read_csv(filename) 
feature_data = data.ix[:, dataset_index] 

graph_min = feature_data.min() 
graph_max = feature_data.max() 

density = gaussian_kde(feature_data) 
density.covariance_factor = lambda : .25 
density._compute_covariance() 

xs = np.arange(graph_min, graph_max, (graph_max - graph_min)/200) 
ys = density(xs) 

plt.xlim(graph_min, graph_max) 
plt.title(feature_name) 
plt.plot(xs,ys) 

plt.show() 
+1

Das * Integral * über eine PDF ist 1. Es gibt keinen Widerspruch, der hier zu sehen ist. Sie können schnell eine grobe Schätzung berechnen: Der Teil zwischen 0 und 0,5 hat einen Durchschnittswert von 1,5, der Teil zwischen 0,5 und 1 hat einen Durchschnittswert von 0,5. Der Rest der Kurve ist vernachlässigbar. Dann 0,5 * 1,5 + 0,5 * 0,5 = 1. So scheint alles in Ordnung zu sein. – ImportanceOfBeingErnest

+0

@ImportanceOfBeingErnest - Mein Verständnis ist, dass die Wahrscheinlichkeit eines bestimmten Wertes (oder kleinen Bereichs) aus dem Graph gelesen werden kann, indem man den entsprechenden y-Wert an diesem Punkt liest. Die höchstmögliche Wahrscheinlichkeit ist 1,0, was bedeutet, dass der Wert sicher ist. In diesem Fall sollten alle anderen Punkte einen Wert von 0 haben. Eine Wahrscheinlichkeit von 1,75 ergibt für mich keinen Sinn. Nach Ihrer Überlegung haben alle anderen Graphen Integrale weit unter 1,0. – maccaroo

+1

In diesem Fall möchten Sie wahrscheinlich in einige Statistiken oder Mathe Buch oder Google nach KDE und PDF suchen, um Ihr Verständnis von PDF/KDE anzupassen. In allen Fällen zeigen Sie an, dass das Integral 1 wie erwartet ist. – ImportanceOfBeingErnest

Antwort

0

Wie zu Recht betont, nie eine kontinuierliche pdf sagt der Wert ist kleiner als 1, mit der PDF für kontinuierliche Zufallsvariable ist die Funktion p (x) nicht die Wahrscheinlichkeit. Sie können sich für kontinuierliche Zufallsvariable und ihre Verteilungen beziehen

Verwandte Themen