Ich brauche etwas ähnliches wie die randomSplit Funktion:Split Spark-Datenrahmen basierend auf Zustand
val Array(df1, df2) = myDataFrame.randomSplit(Array(0.6, 0.4))
Ich brauche aber myDataFrame basierte auf einem boolean Zustand zu spalten. Gibt es etwas wie das Folgende?
val Array(df1, df2) = myDataFrame.booleanSplit(col("myColumn") > 100)
Ich möchte nicht zwei separate .filter Anrufe zu tun.
genau das gleiche Problem. Kaum zu glauben, dass Sie zwei Filteroperationen durchführen müssen, anstatt nur einen Scan zu machen. – medloh