2017-12-14 3 views
-1

Ich habe einen Pyspark-Datenrahmen mit einer Zahlenspalte. Ich muss diese Spalte summieren und dann das Ergebnis als int in einer Python-Variablen zurückgeben.PySpark - Summiere eine Spalte im Datenframe und gebe die Ergebnisse als int zurück

df = spark.createDataFrame([("A", 20), ("B", 30), ("D", 80)],["Letter", "Number"]) 

Ich mache Folgendes, um die Spalte zu summieren.

df.groupBy().sum() 

Aber ich bekomme einen Datenrahmen zurück.

Ich würde 130 als int in einer Variablen gespeichert werden, um sonst wo in dem Programm verwendet werden.

result = 130 

Antwort

0

Folgendes sollte funktionieren:

df.groupBy().sum().rdd.map(lambda x: x[0]).collect() 
Verwandte Themen