2017-03-11 3 views
-2

Funcon zu tun, wie zu entscheiden, wie viele Repartitionen für RDD zu tun. RDD repartition() nimmt die Zahl, wie man mit der Nummer kommt?Spark, wie zu entscheiden, wie viele Repartitionen für jede RDD

+1

Mögliches Duplikat von [Anzahl der Partitionen in RDD und Leistung in Spark] (http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark) –

Antwort

1

Faustregel bei der Entscheidung für Partitionen.

  1. Eine Partitionsgröße sollte weniger als 2 GB betragen (diese Einschränkung kommt vom Spark-Code).

  2. In Spark versuchen, die Partitionsgröße = Map Split Größe = HDFS Standard Blockgröße zu halten. Erinnern Sie im Gegensatz zu MR in Funken num Minderer task> = num Mapper

  3. Wenn die Anzahl der Partitionen ist um 2000 dann die numPartitions erhöhen> 2000. Als Funken andere Logik gilt für Partition < 2000 und> 2000