Ich muss eine Funken Quantile auf einem numerischen Feld nach eine Gruppe von Betrieb berechnen. Gibt es eine Möglichkeit, das approximativePercentile auf eine aggregierte Liste anstelle einer Spalte anzuwenden?Spark Dataframe Berechnung Perzentil auf einem Array
z. Der Datenrahmen sieht wie folgt aus:
k1 | k2 | k3 | v1
a1 | b1 | c1 | 879
a2 | b2 | c2 | 769
a1 | b1 | c1 | 129
a2 | b2 | c2 | 323
Ich brauche erste groupBy (k1, k2, k3)
und collect_list(v1)
, laufen und dann berechnen quantiles [10th, 50th...]
auf Liste von v1 des