Ich habe Daten auf eine Art partitioniert, ich möchte nur in einer anderen partitionieren. Also im Grunde ist es Gonna so etwas wie diese:DatenFrameWriter partitionBy die Daten mischen?
sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")
Ich frage mich, ist diese Shuffle auslösen oder alle Daten lokal neu zu partitionieren, da in diesem Zusammenhang eine Partition nur ein Verzeichnis in HDFS und Daten von der Einrichtung Die gleiche Partition muss nicht auf demselben Knoten liegen, um in HDFS in dasselbe Verzeichnis geschrieben zu werden.
was sollte ich umpartitionieren, um dies zu vermeiden? –