Ich habe ein RDD wie folgt aus:Wie gruppieren und summieren sich in Spark?
{"key1" : "fruit" , "key2" : "US" , "key3" : "1" }
{"key1" : "fruit" , "key2" : "US" , "key3" : "2" }
{"key1" : "vegetable" , "key2" : "US" , "key3" : "1" }
{"key1" : "fruit" , "key2" : "Japan" , "key3" : "3" }
{"key1" : "vegetable" , "key2" : "Japan" , "key3" : "3" }
Mein Ziel von Schlüssel1 zu erste Gruppe ist und dann die Gruppe von key2 und schließlich key3 hinzufügen.
Ich erwarte Endergebnisses wie
key1 key2 key3
"fruit" , "US" , 3
"vegetable" , "US" , 1
"fruit" , "Japan" , 3
"vegetable" , "Japan" , 3
wie unten Mein Code,
beginntrdd_arm = rdd_arm.map(lambda x: x[1])
rdd_arm beinhaltet die oben genannten Schlüssel: Wert-Format.
Ich bin mir nicht sicher, wohin ich als nächstes gehen soll. Kann mir jemand helfen?
Hallo gsamaras. Danke für das Follow-up. –