Ich versuche, eine RDD in eine Textdatei zu speichern. Meine Instanz von Spark auf Linux und mit Azure Blob läuftSpark saveAsTextFile zu Azure Blob erstellt einen Blob anstelle einer Textdatei
val rdd = sc.textFile("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")
//find the rows which have only one digit in the 7th column in the CSV
val rdd1 = rdd.filter(s => s.split(",")(6).length() == 1)
rdd1.saveAsTextFile("wasb:///HVACOut")
Als ich am Ausgang betrachte, ist es nicht als eine einzelne Textdatei, sondern als eine Reihe von Application/Octet-Stream-Dateien in einem Ordner namens HVACOut.
Wie kann ich es stattdessen als einzelne Textdatei ausgeben?
Ich habe das versucht, es erstellt eine Datei, aber es ist keine Textdatei. Es ist immer noch nur eine Anwendung/Octet-Stream-Datei in einem Ordner namens HVACOut. Unabhängig davon wurde eine HVACOut.txt-Datei mit 0 Byte erstellt – Mark