Ich versuche, einen Datenrahmen in n Gruppen basierend auf bestimmten Werten seiner Spalten zu teilen. Und endete mit dem untenstehenden Code. Aber es sieht nicht effizient zwischen verschachtelten For-Schleifen, ich bin auf der Suche nach einem eleganten Ansatz bei der Umsetzung des folgenden Codes. Kann jemand bitte Eingaben machen?Effiziente Verwendung von for-Schleifen in der Skala
Eingabe wird Spaltennamen sein, auf denen der Datenrahmen aufgeteilt werden soll. Also habe ich ein val in den verschiedenen Werten von Spalten speichern. Es speichert wie:
(0)(0) = F
(0)(1) = M
(1)(0) = drugY
(1)(1) = drugC
(1)(2) = drugX
So habe ich insgesamt 5 mit Spaltenwerte wie folgt erstellt:
F and drugY
M and drugY
F and drugC
M and drugC
F and drugX
M and drugX
Wenn Sie sind Wenn Sie diese Dinge mit 'DataFrame' machen, müssen Sie sich keine Gedanken über die Effizienz von' for' Loops machen. Spark Tipp 1 - Fast alle Operationen auf einem DataFrame sind sehr sehr teuer (relativ zur Effizienz der For-Schleife). –