2016-04-20 12 views
0

Ich muss eine Reihe von JSON-Dateien aus einem HDFS-Verzeichnis lesen. Nach der Verarbeitung muss Spark die Dateien in einem anderen Verzeichnis speichern. In der Zwischenzeit können weitere Dateien hinzugefügt werden, daher benötige ich eine Liste von Dateien, die von Spark gelesen (und verarbeitet) wurden, da ich nicht die Dateien entfernen möchte, die nicht noch verarbeitet wurden.Spark read.json mit Dateinamen

Die Funktion read.json konvertiert die Dateien sofort in DataFrames, das ist cool, aber es gibt mir nicht die Dateinamen wie wholeTextFiles. Gibt es eine Möglichkeit, JSON-Daten zu lesen und gleichzeitig die Dateinamen zu erhalten? Gibt es eine Konvertierung von RDD (mit JSON-Daten) zu DataFrame?

Antwort

0

Ab Version1.6 können Sie input_file_name() verwenden, um den Namen der Datei abzurufen, in der sich eine Zeile befindet. So kann man die Namen aller Dateien über einen eindeutigen Namen erhalten.

+0

Ich habe vergessen hinzuzufügen: Ich bin auf 1.4.1. – Ian

+0

dann funktioniert es nicht, sorry .. – mgaido

+0

Kein Weg um es in pre-1.6.0? – Ian