Ich arbeite an einem Projekt mit Apache Funke. Ich war mir der Transformationen und Aktionen in Spark ziemlich bewusst, aber plötzlich bin ich verwirrt mit der Funktion sortByKey() in Spark.Sortbykey in Apache Funke
Wie funktioniert das, betrachtet es alle Partitionen (d. H. Alle RDDs) zum Sortieren oder Daten wird in einer einzigen RDD? Sortiert.
Meine Anforderung ist es, Daten global sortiert zu bekommen, genauso wie wir in jeder Programmiersprache sortieren (Collections.sort() in Java).
Betrachten Sie den folgenden Code: (xyz nach einiger Reihe von Operationen RDD)
JavaPairRDD<Float,Object>sorted = xyz.transformToPair(rdd->rdd.sortByKey());
Ist die obige Aussage Ergebnis gibt, die global sortiert ist?
Wenn nein, wie werden die Daten global sortiert, d. H. Alle Daten unter allen Partitionen berücksichtigt?
Vielen Dank im Voraus.