Wie berechnet man die aktuelle Zeile mit der nächsten?

In Spark-Sql Version 1.6, mit DataFrame s, gibt es eine Möglichkeit, für eine bestimmte Spalte die Summe der aktuellen Zeile und die nächste Zeile für jede Zeile zu berechnen?Wie berechnet man die aktuelle Zeile mit der nächsten?

Zum Beispiel, wenn ich eine Tabelle mit einer Spalte haben, wie so

würde Ich mag die folgende Ausgabe

Die letzte Reihe fallen gelassen wird, weil es keine „nächste hat Zeile "hinzugefügt werden.

Im Moment mache ich es, indem ich die Tabelle rangiere und sie mit sich selbst verbinde, wo rank gleich rank+1 ist.

Gibt es einen besseren Weg, dies zu tun? Kann dies mit einer Window Funktion gemacht werden?

Quelle

2017-06-06 summerbulb

Ja definitiv können Sie mit Window Funktion mit rowsBetween Funktion tun. Ich habe in meinem folgenden Beispiel person Spalte für grouping Zweck verwendet.

import sqlContext.implicits._ 
import org.apache.spark.sql.functions._ 

val dataframe = Seq(
    ("A",12), 
    ("A",23), 
    ("A",31), 
    ("A",67) 
).toDF("person", "Age") 

val windowSpec = Window.partitionBy("person").orderBy("Age").rowsBetween(0, 1) 
val newDF = dataframe.withColumn("sum", sum(dataframe("Age")) over(windowSpec)) 
    newDF.filter(!(newDF("Age") === newDF("sum"))).show

Quelle

2017-06-06 12:56:40

Verwenden Sie 'Window.currentRow' anstatt –

Danke. Könnten Sie sich bitte auch [diese Frage] (https://stackoverflow.com/q/44392754/416300) ansehen? – summerbulb

Wie berechnet man die aktuelle Zeile mit der nächsten?

Antwort

Verwandte Themen