Ich muss eine Reihe von JSON-Dateien aus einem HDFS-Verzeichnis lesen. Nach der Verarbeitung muss Spark die Dateien in einem anderen Verzeichnis speichern. In der Zwischenzeit können weitere Dateien hinzugefügt werden, daher benötige ich eine Liste von Dateien, die von Spark gelesen (und verarbeitet) wurden, da ich nicht die Dateien entfernen möchte, die nicht noch verarbeitet wurden.Spark read.json mit Dateinamen
Die Funktion read.json
konvertiert die Dateien sofort in DataFrames, das ist cool, aber es gibt mir nicht die Dateinamen wie wholeTextFiles
. Gibt es eine Möglichkeit, JSON-Daten zu lesen und gleichzeitig die Dateinamen zu erhalten? Gibt es eine Konvertierung von RDD (mit JSON-Daten) zu DataFrame?
Ich habe vergessen hinzuzufügen: Ich bin auf 1.4.1. – Ian
dann funktioniert es nicht, sorry .. – mgaido
Kein Weg um es in pre-1.6.0? – Ian