Welchen Algorithmus verwendet sortBy in Spark?

-2

Möchten Sie wissen, wie das Sortieren in Funken erreicht wird. Wo finde ich den Algorithmus, der zum Schreiben einer rdd-Operation verwendet wird? DankWelchen Algorithmus verwendet sortBy in Spark?

Quelle

2016-12-26 Pnkzz

Funken verwendet eine verteilte Variante des bucket sort:

Daten partitioniert ist RangePartitioner in bestimmte Anzahl von Eimern mit.
Jeder Bucket wird separat in einem Shuffle sortiert.

Quelle

2016-12-26 12:15:16 user7337271

Nicht wirklich. Die Intuition von 'sort' in Spark ist ganz anders als wir normalerweise über' sortierte' Sammlungen denken. Ihre Intuition scheint begrenzt zu sein, wenn wir von "Sammlungen" in der normalen Welt denken. Diese Frage kann Ihnen einige Einsichten in den Unterschied geben - was meinen Sie damit, eine verteilte Sammlung zu "sortieren", die parallele Berechnungen unterstützen soll? Ein Hinweis ... Sie werden wahrscheinlich die "Konsumenten/Iteratoren/Akkumulatoren" steuern wollen, die später in der Pipeline kommen, um diese verteilte Sammlung in einer bestimmten Weise zu konsumieren, um die Reihenfolge aufrechtzuerhalten. –

Und so wird es eine spezielle RDD namens 'OrderedRDD', die dafür sorgt, dass die' Verbraucher/Iteratoren/Akkumulatoren' weiter unten in der Pipeline wissen, dass sie diese 'Reihenfolge' beibehalten. Denken Sie daran, dass RDD tatsächlich nie nach der normalen Sortierdefinition "sortiert" wird. –

@SarveshKumarSingh OrderedRDD gibt es nicht. – user7337271

Welchen Algorithmus verwendet sortBy in Spark?

Antwort

Verwandte Themen