Ich habe 2 RDDs.Schlüssel zusammenpassen und 2 RDDs in pyspark ohne Datenrahmen verbinden
RDD 1:
[['1', 'user1', 'Name1'],
['2', 'user4', 'Name2']]
RDD 2:
[['5', '1a', '3', '99', 'g1'],
['11', '2b', '1', '99', 'g2'],
['12', '3c', '2', '99', 'g3']]
Ich habe das über 2 RDD des mit dem ersten Feld in RDD 1 (1,2) usw. mit dem dritten Feld in RDD2 (3,1,2) usw. zu verbinden und zu neuer Ausgabe passender Zeilen geschrieben bekommen RDD nur, wenn es in beiden verfügbar ist. Ich weiß, dass eine Join-Operation ausgeführt werden kann. aber nicht sicher wie.
Required output
[['1','Name1'],
['2','Name2']]
Wie geht das weiter? Gibt es eine Möglichkeit, dies ohne Dataframes zu tun?
Die Antworten in einer ähnlichen Frage haben mir nicht geholfen, eine ideale Lösung zu finden. Also musste ich die Abfrage erneut posten.
Mögliches Duplikat von [pyspark join rdds durch einen bestimmten Schlüssel] (https://stackoverflow.com/questions/42821955/pyspark-join-rrds-by-a-specific-key) – philantrovert