6
Die pyspark RDD Dokumentationanzeigen Partitionen auf einem pyspark RDD
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
zeigt keine Methode (n) Partitionsinformationen für eine RDD anzuzeigen.
Gibt es eine Möglichkeit, diese Informationen zu erhalten, ohne einen zusätzlichen Schritt ausführen z.B .:
myrdd.mapPartitions(lambda x: iter[1]).sum()
Die oben funktioniert .. aber scheint, wie zusätzliche Anstrengungen.
Datenrahmen in Funken eingeführt wurden 1.3 und werden oft an Ort und Stelle verwendet von RDDs. Wenn Sie diese Antwort lesen und versuchen, die Anzahl der Partitionen für einen DataFrame zu ermitteln, müssen Sie diese zuerst in eine RDD konvertieren: 'myDataFrame.rdd.getNumPartitions()'. – dnlbrky