2016-03-29 10 views

Antwort

2

Die serialization ist erforderlich, wenn PySpark verwendet wird, da die lokal definierte Funktion auf jedem der Arbeiterknoten remote ausgeführt werden muss. Dieses Konzept bezieht sich nicht unbedingt auf den RDD-Typ.