2017-12-15 5 views
-1

Ich habe einen Pyspark-Datenrahmen mit 4 Spalten.pyspark Gruppe nach Summe

id/Anzahl/Wert/x

Ich möchte Spalten-ID, Nummer, GROUPBY und dann eine neue Spalt mit der Summe des Wertes pro-ID und Nummer hinzuzufügen. Ich möchte Columns x behalten, ohne darauf zu verzichten.

df= df.select("id","number","value","x") 
     .groupBy('id', 'number').withColumn("sum_of_value",df.value.sum()) 

Am Ende habe ich einen Datenrahmen mit 5-Spalten:

Hat kann jemand helfen id/Anzahl/Wert/x/sum_of_value)?

+1

Bitte geben Sie einige Beispieldaten (und das nächste Mal, bitten wir Sie den Code-Format) – desertnaut

Antwort

-2

Nehmen wir an, Ihr DataFrame df hat zunächst 3 Spalten.

Jetzt df1 enthält 2 Spalten ID, Anzahl und Anzahl.

Jetzt können Sie df1 beitreten und df basierend auf Spalten „id“ und „Nummer“, und wählen Sie, was Spalten, die Sie wählen möchten.

Ich hoffe, es hilft.

Grüße,

Neeraj

+0

Summenwerte, zählen nicht :-) – Quetzalcoatl