Ich muss verstehen, wie Shuffling in Spark passiert. Ob Shuffling in BYKEY-Operationen Leistungsüberhang ist. Im Allgemeinen für eine RDD, wie Shuffling passiert und RDD paaren oder verbindet, wie Mischen geschieht. Wenn Sie mit RDD in RDD und Pair RDD erklären können, wäre es großartig.Shuffling in Spark
0
A
Antwort
0
Mischen geschieht in ByKey-Operationen sind ein Overhead und es bringt einen bestimmten Satz von Schlüsseln, die von einem bestimmten Worker Node verarbeitet werden.
Wenn Sie eine groupByKey() und rdd.toDebugString durchführen, sehen Sie die Stufen von RDD, in denen Sie shuffled RDD im Falle von 'groupByKey' sehen werden.
So zum Beispiel Lets sagen, Sie haben 3 Knoten: (Unter der Annahme, Daten in Pair RDD Form)
Node 1 -> Contains -> ("California", "San Francisco"), ("Texas", "Dallas")
Node 2 -> Contains -> ("Utah", "Salt Lake City"), ("California", "San Jose")
Node 3 -> Contains -> ("Texas", "Austin"), ("Utah", "St.George")
Nun, wenn Sie einen groupByKey auf einer RDD aus diesen Daten durchführen wird es alle ähnlichen Schlüssel unter 1 bringen Knoten. So nach Shuffling werden Ihre Daten wie folgt aussehen:
Node 1 -> Contains -> ("California", Iterable(("San Francisco", "SanJose")))
Node 2 -> Contains -> ("Utah", Iterable(("Salt Lake City", "St.George")))
Node 3 -> Contains -> ("Texas", Iterable(("Austin"), ("Dallas")))
Verwandte Themen
- 1. zufällig shuffling Dateien in bash
- 2. TFRecords und Record Shuffling
- 3. C# Shuffling DataGridView Zeilen
- 4. UITableView Shuffling beim Scrollen
- 5. Bild Shuffling und Slicing
- 6. shuffling array one zurück
- 7. Shuffling Javascript Array elegant
- 8. shuffling Zahlen im Array
- 9. Shuffling und Array Probleme Java
- 10. In-Place-Shuffling von mehrdimensionalen Arrays
- 11. Effizientes Bit-Shuffling des Vektors von Binärzahlen
- 12. Batch Padding und Shuffling für tf, train.SequenceBeispiel
- 13. Shuffling verschiedener Teile von verschachtelten Array
- 14. Was ist falsch an meinem Shuffling-Programm?
- 15. Umgehen der Shuffling-Phase von Mapreduce Job in Hadoop?
- 16. Spark Cartesian verursacht keine Shuffle?
- 17. Shuffling-Kombinationen ohne Konvertierung iterable (itertools.combinations) zur Liste
- 18. PCA in Spark MLlib und Spark ML
- 19. Spark Entscheidungsbaum mit Spark
- 20. Spark GraphX Spark-Shell vs Spark-Submit Leistungsunterschiede
- 21. Spark: wie man Spark Datei von Spark Shell
- 22. Spark Schritt in EMR
- 23. Fallklassengleichheit in Apache Spark
- 24. Spark in ggplot2
- 25. groupByKey in Spark-Dataset
- 26. Spark CompileException in Dataset.GroupByKey()
- 27. Spark: Typkonvertierung in Datenrahmen
- 28. Verständnis treeReduce() in Spark-
- 29. Batchgröße in Spark Streaming
- 30. Compounding in Spark-
können Sie durch folgenden Artikel: https://0x0fff.com/spark-architecture-shuffle/ –