Ich habe Listen von Tupeln, die ich zu einer Liste kombinieren möchte. Ich war in der Lage, die Daten zu verarbeiten, indem ich lambdas verwendete und das Verständnis auflistete, wo ich nahe daran bin, reduceByKey zu benutzen, aber nicht sicher, wie man die Listen mergt. Also das Format ...Liste der Listen in pySpark RDD zusammenfügen
[[(0, 14), (0, 24)], [(1, 19), (1, 50)], ...]
Und ich möchte es so sein ....
[(0, 14), (0, 24), (1, 19), (1, 50), ...]
Code, der mich da, wo ich sein muss ...
test = test.map(lambda x: (x[1], [e * local[x[1]] for e in x[0]]))
test = test.map(lambda x: [(x[0], y) for y in x[1]])
Aber nicht sicher, von dort aus, was für die Bereitstellung des Hinweises der Listen
Verwenden Sie 'flatten' anstatt manuell zu explodieren. – mrsrinivas
Hmm. Ok, ich dachte darüber nach, aber aus irgendeinem Grund dachte ich nicht, dass es der richtige Weg war. Ich werde einen Blick – cpd1
Sie können sogar 'test.flatMap (Identität)' – mrsrinivas