Funktioniert KernelDensity.estimate von pyspark auf einem normal verteilten Datensatz korrekt? Ich bekomme einen Fehler, wenn ich das versuche. Ich habe eingereicht https://issues.apache.org/jira/browse/SPARK-20803 (KernelDensity.estimate in pyspark.mllib.stat.KernelDensity net.razorvine.pickle.PickleException führt, wenn die Eingangsdaten normal verteilt ist (kein Fehler, wenn die Daten nicht normal verteilt))Funktioniert KernelDensity.estimate in pyspark.mllib.stat.KernelDensity, wenn Eingabedaten normal verteilt sind?
Beispielcode:
Wenn Daten nicht Gauß ist, bekomme ich für zB 5.6654703477e-05,0.000100010001,0.000100010001,0.000100010001, .....
Als Referenz mit Scala, für Gaussian Daten, Code:
vecRDD = sc.parallelize(colVec)
kd = new KernelDensity().setSample(vecRDD).setBandwidth(3.0)
// Find density estimates for the given values
densities = kd.estimate(samplePoints)
ich: [0.04113814235801906,1.0994865517293571E -163,0.0,0.0, .....