Ich bin gerade mit Pyspark beginnen und möchte eine Datei als csv anstelle einer Textdatei speichern. Ich habe versucht, ein paar Antworten mit I auf Stack-Überlauf wieRDD zu CSV mit geteilten Spalten schreiben
def toCSVLine(data):
return ','.join(str(d) for d in data)
und dann
rdd = lines.map(toCSVLine)
rdd.saveAsTextFile("file.csv")
Es funktioniert in fand, dass ich es in Excel öffnen kann, aber alle Informationen in Spalte A gesetzt werden in der Tabelle. Ich würde gerne in der Lage sein, jede Spalte in die RDD (ein Beispiel wäre ("ID", "Rating") in eine separate Spalte in Excel, so ID wäre in Spalte A und Bewertung wäre in Spalte B. Ist da ein Weg, dies zu tun?
Das hat funktioniert, aber gibt es eine Möglichkeit, Kommas in Anführungszeichen zu ignorieren? Es teilt eine Textzeile auf, die ich in mehreren Spalten zusammenhalten muss, da sie einige Kommas enthält. – tclaw46
Sie können wahrscheinlich ein anderes Trennzeichen mit .option ("delimiter", "|") verwenden und dieses Trennzeichen beim Öffnen verwenden. Excel – Insilico
Okay, ich konnte es mit diesem Code arbeiten. Danke für Ihre Hilfe. – tclaw46