-2
Möchten Sie wissen, wie das Sortieren in Funken erreicht wird. Wo finde ich den Algorithmus, der zum Schreiben einer rdd-Operation verwendet wird? DankWelchen Algorithmus verwendet sortBy in Spark?
Möchten Sie wissen, wie das Sortieren in Funken erreicht wird. Wo finde ich den Algorithmus, der zum Schreiben einer rdd-Operation verwendet wird? DankWelchen Algorithmus verwendet sortBy in Spark?
Funken verwendet eine verteilte Variante des bucket sort:
RangePartitioner
in bestimmte Anzahl von Eimern mit.
Nicht wirklich. Die Intuition von 'sort' in Spark ist ganz anders als wir normalerweise über' sortierte' Sammlungen denken. Ihre Intuition scheint begrenzt zu sein, wenn wir von "Sammlungen" in der normalen Welt denken. Diese Frage kann Ihnen einige Einsichten in den Unterschied geben - was meinen Sie damit, eine verteilte Sammlung zu "sortieren", die parallele Berechnungen unterstützen soll? Ein Hinweis ... Sie werden wahrscheinlich die "Konsumenten/Iteratoren/Akkumulatoren" steuern wollen, die später in der Pipeline kommen, um diese verteilte Sammlung in einer bestimmten Weise zu konsumieren, um die Reihenfolge aufrechtzuerhalten. –
Und so wird es eine spezielle RDD namens 'OrderedRDD', die dafür sorgt, dass die' Verbraucher/Iteratoren/Akkumulatoren' weiter unten in der Pipeline wissen, dass sie diese 'Reihenfolge' beibehalten. Denken Sie daran, dass RDD tatsächlich nie nach der normalen Sortierdefinition "sortiert" wird. –
@SarveshKumarSingh OrderedRDD gibt es nicht. – user7337271