4
Also habe ich einen Funken Datenrahmen haben, die wie folgt aussieht:GroupByKey und erstellen Listen von Werten pyspark SQL Datenrahmen
a | b | c
5 | 2 | 1
5 | 4 | 3
2 | 4 | 2
2 | 3 | 7
Und ich möchte Gruppe von Spalte eine, erstellen Sie eine Liste von Werten aus der Spalte b und vergesse c. Der Ausgang Datenrahmen wäre:
a | b_list
5 | (2,4)
2 | (4,3)
Wie würde ich mich darüber mit einem pyspark SQL-Datenrahmen zu tun?
Vielen Dank! :)
Genau das, was ich brauche! Vielen Dank. Könnten Sie einige Ressourcen vorschlagen, um besser zu werden? – user2253546
Ich habe nicht Ihre Frage in Bezug auf Ressourcen. Bitte akzeptieren Sie die Antwort, wenn es Ihr Problem behebt, so dass es für andere hilfreich sein wird. Vielen Dank. – abaghel
@ user2253546 Sie doc lesen kann. hier https://spark.apache.org/docs/1.6.2/api/java/org/apache/spark/sql/functions.html, viele nützliche SQL-Funktionen. –