Ich bekomme diesen Fehler, aber ich weiß nicht warum. Grundsätzlich ich von diesem Code bin erroring:pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar
a = data.mapPartitions(helper(locations))
wo Daten ein RDD und mein Helfer ist definiert als:
def helper(iterator, locations):
for x in iterator:
c = locations[x]
yield c
(Standorte ist nur ein Array von Datenpunkten) Ich sehe nicht, Was das Problem ist, aber ich bin auch nicht der Beste in pyspark, also kann mir bitte jemand sagen, warum ich bekomme "PipelinedRDD" Objekt ist nicht iterierbar von diesem Code?
Sie können nicht auf einem rdd in der Art und Weise wiederholen Sie tun. Bitte schauen Sie sich http://stackoverflow.com/questions/25914789/how-do-i-iterate-rdds-in-apache-spark-scala – Mohan
@Mohan: danke Ich denke, ich bekomme die Idee jetzt, aber ich bin immer noch den gleichen Fehler bekommen. Ich rufe dies jetzt an: a = data.mapPartitions (Lambda-Iterator: Helfer (Iterator, Orte)). Was mache ich sonst falsch? – deeformvp