Ich habe einen Pyspark-Datenrahmen mit 4 Spalten.pyspark Gruppe nach Summe
id/Anzahl/Wert/x
Ich möchte Spalten-ID, Nummer, GROUPBY und dann eine neue Spalt mit der Summe des Wertes pro-ID und Nummer hinzuzufügen. Ich möchte Columns x behalten, ohne darauf zu verzichten.
df= df.select("id","number","value","x")
.groupBy('id', 'number').withColumn("sum_of_value",df.value.sum())
Am Ende habe ich einen Datenrahmen mit 5-Spalten:
Hat kann jemand helfen id/Anzahl/Wert/x/sum_of_value)?
Bitte geben Sie einige Beispieldaten (und das nächste Mal, bitten wir Sie den Code-Format) – desertnaut