Wenn ich eine RDD von Tupeln mit 5 Elementen haben, zum Beispiel RDD (Double, String, Int, Double, Double)Wie man eine RDD von Tupeln mit 5 Elementen in Spark Scala sortiert?
Wie kann ich diese RDD sortieren effizient das fünfte Element verwendet?
Ich habe versucht, diese RDD in Schlüssel-Wert-Paare zuordnen und verwendet sortByKey, aber sieht aus wie sortByKey ist ziemlich langsam, es ist langsamer als ich diese RDD gesammelt und sortWith auf dem gesammelten Array verwendet. Warum ist es so?
Vielen Dank.
Natürlich ist es das. Wenn Sie es sammeln, ist alles auf einem Knoten und Sie machen dann eine In-Memory-Sortierung Spark ist für große Datensätze, die nicht auf einen Knoten passen, und es gibt einen (erheblichen) Overhead im Vergleich zur Einzelknotenberechnung. Wenn Sie keinen so großen Datensatz haben, möchten Sie wahrscheinlich Spark nicht verwenden. Es ist keine magische "Lösung schneller machen". –
Vielen Dank für Ihre Erklärung. – Carter