2016-12-26 2 views

Antwort

2

Funken verwendet eine verteilte Variante des bucket sort:

  • Daten partitioniert ist RangePartitioner in bestimmte Anzahl von Eimern mit.
  • Jeder Bucket wird separat in einem Shuffle sortiert.
+0

Nicht wirklich. Die Intuition von 'sort' in Spark ist ganz anders als wir normalerweise über' sortierte' Sammlungen denken. Ihre Intuition scheint begrenzt zu sein, wenn wir von "Sammlungen" in der normalen Welt denken. Diese Frage kann Ihnen einige Einsichten in den Unterschied geben - was meinen Sie damit, eine verteilte Sammlung zu "sortieren", die parallele Berechnungen unterstützen soll? Ein Hinweis ... Sie werden wahrscheinlich die "Konsumenten/Iteratoren/Akkumulatoren" steuern wollen, die später in der Pipeline kommen, um diese verteilte Sammlung in einer bestimmten Weise zu konsumieren, um die Reihenfolge aufrechtzuerhalten. –

+0

Und so wird es eine spezielle RDD namens 'OrderedRDD', die dafür sorgt, dass die' Verbraucher/Iteratoren/Akkumulatoren' weiter unten in der Pipeline wissen, dass sie diese 'Reihenfolge' beibehalten. Denken Sie daran, dass RDD tatsächlich nie nach der normalen Sortierdefinition "sortiert" wird. –

+0

@SarveshKumarSingh OrderedRDD gibt es nicht. – user7337271

Verwandte Themen