Ich habe zwei Dateien in hdfs Daten enthalten, wie folgt, File1:Kombination von Union und Mitglied in Apache Schwein
id,name,age
1,x1,15
2,x2,14
3,x3,16
File2:
id,name,grades
1,x1,A
2,x2,B
4,y1,A
5,y2,C
ich die folgende Ausgabe produzieren wollen:
id,name,age,grades
1,x1,15,A
2,x2,14,B
3,x3,16,
4,y1,,A
5,y2,,C
Ich benutze Apache Schwein, um die Operation durchzuführen, ist es möglich, die obige Ausgabe in Schwein zu bekommen. Das ist eine Art Union und verbindet beides.
Ich würde erwarten, dass dies funktioniert, aber man sollte erkennen, dass das Abschneiden am Ende bedeutet, dass die Speicheranforderungen deutlich höher sein können als für die von mir vorgeschlagene Lösung. - Im Grunde genommen machst du einen versteckten vollen Outer-Join, also denke ich, dass du das genauso gut verwenden könntest, anstatt rechts und links zu Joins. –
Dies hilft, ich werde versuchen, dies für zwei beliebige Dateien zu automatisieren (mit variablen Spalten und variablen gemeinsamen Spalten). Wenn Sie darüber nachdenken, schlagen Sie bitte vor. – Prometheus