0
Ich habe Datenrahmen, die Zeilen mit identischer ID enthält. Ich muss Union alle Zeilen mit der gleichen ID in einer Zeile (eine json)spark - Union Datenrahmen Zeilen in einer Zeile
Hier ist Beispiel für die Daten:
id first_name last_name
1 JAMES SMITH
2 MARY BROWN
2 DAVID WILLIAMS
1 ROBERT DAVIS
das angeforderte Ergebnis ist:
{
id:1,
entities: [{
first_name:JAMES,
last_name:SMITH
}, {
first_name:ROBERT,
last_name:DAVIS
}]
}
{
id:2,
entities: [{
first_name:MARY,
last_name:BROWN
}, {
first_name:DAVID,
last_name:WILLIAMS
}]
}
Kann es getan werden?
Grüße, Yaniv
nicht von 'collect_list'and ihre Nutzung bewusst haben, Vielen Dank. – Shankar
Vielen Dank Tzach für Ihre Antwort, aber wenn ich versuche, den Code auszuführen, erhalte ich eine Ausnahme: 'AnalyseException: undefined Funktion collect_list' –
Oh, ich denke, das heißt, Sie sollten' "org.apache.spark" %% "enthalten spark-hive "' in deinen Abhängigkeiten (zusätzlich zu '" org.apache.spark "%%" spark-sql "'), weil die Implementierung dieser Funktion in Sparks Hive-Unterstützung ... –