pyspark Gruppe nach Summe

-1

Ich habe einen Pyspark-Datenrahmen mit 4 Spalten.pyspark Gruppe nach Summe

id/Anzahl/Wert/x

Ich möchte Spalten-ID, Nummer, GROUPBY und dann eine neue Spalt mit der Summe des Wertes pro-ID und Nummer hinzuzufügen. Ich möchte Columns x behalten, ohne darauf zu verzichten.

df= df.select("id","number","value","x") 
     .groupBy('id', 'number').withColumn("sum_of_value",df.value.sum())

Am Ende habe ich einen Datenrahmen mit 5-Spalten:

Hat kann jemand helfen id/Anzahl/Wert/x/sum_of_value)?

Quelle

2017-12-15 Rem Carbone

Bitte geben Sie einige Beispieldaten (und das nächste Mal, bitten wir Sie den Code-Format) – desertnaut

-2

Nehmen wir an, Ihr DataFrame df hat zunächst 3 Spalten.

Jetzt df1 enthält 2 Spalten ID, Anzahl und Anzahl.

Jetzt können Sie df1 beitreten und df basierend auf Spalten „id“ und „Nummer“, und wählen Sie, was Spalten, die Sie wählen möchten.

Ich hoffe, es hilft.

Grüße,

Neeraj

Quelle

2017-12-15 14:59:19

Summenwerte, zählen nicht :-) – Quetzalcoatl

pyspark Gruppe nach Summe

Antwort

Verwandte Themen