ich einige Daten mit pyspark Datenrahmen bin Analyse an, dass habe ich einen Datenrahmen df
, dass ich Aggregieren bin:Umbenennung Spalten für pyspark Datenrahmen Aggregate
df.groupBy("group")\
.agg({"money":"sum"})\
.show(100)
Das gibt mir:
group SUM(money#2L)
A 137461285853
B 172185566943
C 271179590646
die Aggregation funktioniert gut, aber ich mag den neuen Spaltennamen "SUM (Geld # 2L)" nicht. Gibt es eine nette Möglichkeit, diese Spalte in eine von der Methode .agg
lesbare Form umzubenennen? Vielleicht etwas mehr ähnlich zu dem, was man in dplyr
tun würde:
df %>% group_by(group) %>% summarise(sum_money = sum(money))
Sehr nützlich und zeitnah. Ich wollte gerade die gleiche Frage stellen. Es wäre schön, wenn Sie einen neuen Spaltennamen innerhalb des 'agg'-Diktats angeben könnten (innerhalb von Spark I mean). –
@EvanZamir danke! Ich könnte versuchen, eine einfache PR in Funken dafür zu machen. –