Überprüfen Sie, ob die Anzahl der Datensätze im Dataframe größer als Null ist, ohne den Zähler function zu verwenden.

Ich möchte überprüfen, ob mein erstellter Datenrahmen nicht leer ist und mindestens 1 Datensatz enthält. Gibt es einen besseren Ansatz anders als Zählung Methode verwenden und prüfen, ob der Zählwert größer als 0Überprüfen Sie, ob die Anzahl der Datensätze im Dataframe größer als Null ist, ohne den Zähler function zu verwenden.

Quelle

2017-05-17 Anand B

Verwenden rdd.isEmpty:

scala> Seq[(Long, String)]((1L, "a")).toDF.rdd.isEmpty 
res0: Boolean = false 

scala> Seq[(Long, String)]().toDF.rdd.isEmpty

res1: Boolean true =

Quelle

2017-05-17 14:13:52 user8026000

Wird das schneller als zählen? –

Es könnte aber auch tun dies:

df.take(1).length == 0

rdd.isEmpty implementiert die obige Funktionalität intern.

Quelle

2017-05-17 14:26:34 philantrovert

Es kann noch schneller sein. Wenn wir '.rdd' aufrufen, kann Spark die Abfrage für einige Datenquellen, d. H. JDBC, nicht optimieren. Ihre Version verwendet alle möglichen Optimierungen –

@ T.Gawęda Sind RDDs nicht die zugrunde liegenden Quellen von allem in Spark? Ich frage mich nur, ob 'df.rdd' viel Zeit braucht, wenn der Datenrahmen, sagen wir, eine Million Zeilen hat? – philantrovert

Es wird von Datasets verwendet, aber wenn Sie eine Aktion für Dataset aufrufen, wenn Spark versucht, die Abfrage zu optimieren. Auch Aufruf von 'rdd' deserialisiert Zeilen vom internen Formular zum normalen - siehe http://stackoverflow.com/questions/43843470/how-to-know-which-count-query-is-the-fastest –

Verwenden isEmpty von RDD

def isEmpty(): Boolean = withScope { 
partitions.length == 0 || take(1).length == 0

}

Quelle

2017-05-17 14:36:01

Überprüfen Sie, ob die Anzahl der Datensätze im Dataframe größer als Null ist, ohne den Zähler function zu verwenden.

Antwort

Verwandte Themen