Ich habe einen Datenrahmen (df) mit 3 Spalten (col1 string, col2 int, col3 string) wie unten aber Millionen von Datensätzen:PartitionBy entfernt Sonderzeichen in PySpark
Test's 123 abcdefgh
Tes#t 456 mnopqrst
Test's 789 hdskfdss
Wenn ich versuche, partitionBy zu tun Wenn Sie PySpark verwenden, um die Daten mit der folgenden Anweisung zu schreiben, gehen die Sonderzeichen im Col1 verloren und werden beim Erstellen von Verzeichnissen in hdfs durch ASCII-Zeichen ersetzt. Gibt es eine Möglichkeit, dass die Sonderzeichen beibehalten und in den Verzeichnispfad aufgenommen werden, während dieser Datenrahmen in hdfs geschrieben wird?
df.write.partitionBy("col1","col2").text(hdfs_path)
Bitte lassen Sie mich wissen, wenn ich verwirrt habe und weitere Details benötigen. Ich verwende Spark 1.6.1