Spark DataFrame groupBy und Sortieren in absteigender Reihenfolge (pyspark)

Ich benutze pyspark (Python 2.7.9/Spark 1.3.1) und haben ein Datenobjekt GroupObject, die ich filter & in absteigender Reihenfolge sortieren müssen. Versuchen, es über dieses Stück Code zu erreichen.Spark DataFrame groupBy und Sortieren in absteigender Reihenfolge (pyspark)

group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False)

Aber es wirft den folgenden Fehler.

sort() got an unexpected keyword argument 'ascending'

Quelle

2015-12-29 rclakmal

In PySpark 1.3 sort Verfahren dauert nicht Parameter steigend. Sie können desc Methode verwenden statt:

from pyspark.sql.functions import col 

(group_by_dataframe 
    .count() 
    .filter("`count` >= 10") 
    .sort(col("count").desc()))

oder desc Funktion:

from pyspark.sql.functions import desc 

(group_by_dataframe 
    .count() 
    .filter("`count` >= 10") 
    .sort(desc("count"))

Beide Methoden können mit mit Spark> = 1,3 (einschließlich Funken 2.x) verwendet werden.

Quelle

2015-12-29 16:11:42 zero323

Verwenden orderBy:

group_by_dataframe.count().filter("`count` >= 10").orderBy('count', ascending=False)

http://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html

Quelle

2017-03-08 17:52:06

Ähnlich wie oben - aber Art auf umbenannte Spaltennamen (Pseudonym):

from pyspark.sql.functions import desc 

df=df.count().withColumnRenamed("count", "newColName")\ 
     .filter("`count` >= 10") 
     .sort(desc("newColName")) 
df.show()

Quelle

2017-11-23 14:23:00 gps

Spark DataFrame groupBy und Sortieren in absteigender Reihenfolge (pyspark)

Antwort

Verwandte Themen