Ich habe einen Datenrahmen, die einige mehrzeiligen Beobachtungen hat:Wie behandelt man mehrzeilige Reihen in Funken?
+--------------------+----------------+
| col1| col2|
+--------------------+----------------+
|something1 |somethingelse1 |
|something2 |somethingelse2 |
|something3 |somethingelse3 |
|something4 |somethingelse4 |
|multiline
row | somethings|
|something |somethingall |
Was ich will, ist in csv
-Format (oder txt
) diesen Datenrahmen zu speichern. Verwenden Sie Folgendes:
df
.write
.format("csv")
.save("s3://../adf/")
Aber wenn ich die Datei überprüfen, trennt es die Beobachtungen zu mehreren Zeilen. Was ich will, ist die Zeilen, die "mehrzeilige" Observatios eine gleiche Zeile in der txt/csv-Datei haben. Ich habe versucht, es als TXT-Datei zu speichern:
df
.as[(String,String)]
.rdd
.saveAsTextFile("s3://../adf")
aber die gleiche Ausgabe wurde beobachtet.
Ich kann mir vorstellen, dass eine Möglichkeit ist, \n
durch etwas anderes zu ersetzen und nach dem Zurückladen die umgekehrte Funktion auszuführen. Aber gibt es eine Möglichkeit, es in der gewünschten Weise zu speichern, ohne irgendeine Art von Transformation zu den Daten zu machen?