Ich habe eine RDD von labeled point in Spark. Ich möchte alle eindeutigen Werte von Labels zählen. Ich versuche, etwasPyspark Anzahl deutliche Werte von Etiketten eines markierten Punkt RDD
from pyspark.mllib.regression import LabeledPoint
train_data = sc.parallelize([ LabeledPoint(1.0, [1.0, 0.0, 3.0]),LabeledPoint(2.0, [1.0, 0.0, 3.0]),LabeledPoint(1.0, [1.0, 0.0, 3.0]) ])
train_data.reduceByKey(lambda x : x.label).collect()
Aber ich bekomme
TypeError: 'LabeledPoint' object is not iterable
Ich benutze Spark-2.1 und Python 2.7. Danke für jede Hilfe.
Bitte geben Sie eine Probe Ihrer Daten – desertnaut
@desertnaut ich mit einigen Daten meiner Frage aktualisieren –