Funcon zu tun, wie zu entscheiden, wie viele Repartitionen für RDD zu tun. RDD repartition() nimmt die Zahl, wie man mit der Nummer kommt?Spark, wie zu entscheiden, wie viele Repartitionen für jede RDD
-2
A
Antwort
1
Faustregel bei der Entscheidung für Partitionen.
Eine Partitionsgröße sollte weniger als 2 GB betragen (diese Einschränkung kommt vom Spark-Code).
In Spark versuchen, die Partitionsgröße = Map Split Größe = HDFS Standard Blockgröße zu halten. Erinnern Sie im Gegensatz zu MR in Funken num Minderer task> = num Mapper
Wenn die Anzahl der Partitionen ist um 2000 dann die numPartitions erhöhen> 2000. Als Funken andere Logik gilt für Partition < 2000 und> 2000
Verwandte Themen
- 1. Spark Wie zu RDD [JSONObject] zu Dataset
- 2. Schemadefinition für Spark RDD
- 3. Spark: Finden Sie jede Partition Größe für RDD
- 4. Wie transformiert man ein Objekt in RDD (Spark) in viele Elemente in RDD?
- 5. Spark RDD Lineage Graph Darstellung
- 6. Wie generiert man viele Daten in Spark?
- 7. Spark RDD Datenauswahl
- 8. Behandle Spark RDD wie einfach Seq
- 9. Spark RDD: Wie Statistiken am effizientesten zu berechnen?
- 10. Spark wenn Union viele RDD wirft Stack Overflow Fehler
- 11. Wie viele Dateien in S3 mit Spark
- 12. Apache Spark Rdd persistent
- 13. Spark-JSON Textfeld RDD
- 14. Wie viele Möglichkeiten gibt es eine neue Spalte zu einem Datenrahmen RDD in Spark API hinzuzufügen?
- 15. Apache Spark RDD-Workflow
- 16. Apache Spark Convert Sammlung von RDD zu einzelnen RDD JAVA
- 17. Spark-RDD-Mapping Fragen
- 18. Wie weit wird Spark RDD Cache gehen?
- 19. Spark/Scala: RDD zu Funktion übergeben
- 20. Wie kann Spark RDD zwischen zwei Spark-Kontexten geteilt werden?
- 21. Spark RDD Probleme
- 22. Wie zu entscheiden, Dimensionsfelder Typ
- 23. Wie konvertiert man Matrix zu RDD [Vector] in spark
- 24. Wie RD RD zu mehr RDD in Spark hinzufügen?
- 25. Spark RDD werfen NullPointerException
- 26. Spark konvertiert ein Dataset zu RDD
- 27. Java Spark RDD in einer anderen RDD?
- 28. Anzahl der Partitionen in RDD und Leistung in Spark-
- 29. Wie konvertiert RDD [Liste [String]] zu RDD [String]
- 30. Spark RDD apend
Mögliches Duplikat von [Anzahl der Partitionen in RDD und Leistung in Spark] (http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark) –