Angenommen, wir haben eine Datei auf HDFS mit 3 Blöcken (je 64 MB). Wenn wir eine RDD erstellen, die dieselbe Datei mit 3 Partitionen verwendet, dann hat jeder Knoten im Cluster (angenommen Cluster hat 3 Datenknoten) doppelte Dateiinhalte (einen Block von hdfs und eine Partition von RDD)RDD Partitionierung
Antwort
In HDFS Blöcke werden zufällig verteilt (standardmäßig und wenn der Client, auf dem Sie die Datei abgelegt haben, nicht Teil des Clusters ist), können Sie nicht sicher sein, dass jeder Knoten einen Block hat, außer Sie haben Replik 3. In diesem Fall wird jeder Block platziert in drei Knoten.
In Bezug auf Spark versucht Spark standardmäßig, Daten von den Knoten, die sich in der Nähe befinden, in eine RDD zu lesen und versucht, rdd-Partitionen über den Cluster zu verteilen.
Ihre Annahme ist nicht immer richtig, Sie müssen HDFS-Blockverteilung mit Replica-Platzierungsstrategie, Spark-Executoren usw. berücksichtigen. Allerdings wäre es richtig, wenn Sie Replica 3 in HDFS haben und einen Spark-Cluster mit 3 haben Arbeiter eins in jedem Knoten im Cluster.
- 1. RDD-Partitionierung in Spark Streaming
- 2. Verständnis der Spark-Partitionierung
- 3. Partitionierung auf Import/verschiedene
- 4. Plinq's Partitionierung vs Chunk Partitionierung?
- 5. Hash-Partitionierung in Spark
- 6. Kafka Connect Sink-Partitionierung: Sub-Partitionierung?
- 7. Set Partitionierung
- 8. mysql Partitionierung
- 9. Leistungsunterschied zwischen nativer MySQL-Partitionierung und Back-End-basierter Partitionierung?
- 10. mysql Datenbank automatische Partitionierung
- 11. webapp Partitionierung auf Tomcat
- 12. Vertikale Partitionierung beim Brühen
- 13. mysql Partitionierung von Datum
- 14. Partitionierung basierend auf Spaltendaten?
- 15. Mod Bucketing (Partitionierung, Segmentierung)
- 16. Partitionierung einer verketteten Liste
- 17. Hive: dynamische Partitionierung
- 18. Fremdschlüssel vs Partitionierung
- 19. Datenbank Partitionierung Erklärung
- 20. Partitionierung der Festplatte
- 21. Spark-Hive-Partitionierung
- 22. Integer Partitionierung in PHP
- 23. Spark-Partitionierung/cluster Durchsetzung
- 24. Spark HashPartitioner Unerwartete Partitionierung
- 25. Partitionierung Master Detail Tabelle
- 26. Verständnis Partitionierung in Hive
- 27. MySQL-Partitionierung funktioniert nicht
- 28. Chunk-Partitionierung IEnumerable in Parallel.Foreach
- 29. Wie Partitionierung in Hazelcast funktioniert?
- 30. Python 3-Wege-Partitionierung (Quicksort)
Ist das wirklich Verständnis? Bitte klären Sie. –