Spark read.json mit Dateinamen

Ich muss eine Reihe von JSON-Dateien aus einem HDFS-Verzeichnis lesen. Nach der Verarbeitung muss Spark die Dateien in einem anderen Verzeichnis speichern. In der Zwischenzeit können weitere Dateien hinzugefügt werden, daher benötige ich eine Liste von Dateien, die von Spark gelesen (und verarbeitet) wurden, da ich nicht die Dateien entfernen möchte, die nicht noch verarbeitet wurden.Spark read.json mit Dateinamen

Die Funktion read.json konvertiert die Dateien sofort in DataFrames, das ist cool, aber es gibt mir nicht die Dateinamen wie wholeTextFiles. Gibt es eine Möglichkeit, JSON-Daten zu lesen und gleichzeitig die Dateinamen zu erhalten? Gibt es eine Konvertierung von RDD (mit JSON-Daten) zu DataFrame?

Quelle

2016-04-20 Ian

Ab Version1.6 können Sie input_file_name() verwenden, um den Namen der Datei abzurufen, in der sich eine Zeile befindet. So kann man die Namen aller Dateien über einen eindeutigen Namen erhalten.

Quelle

2016-04-20 09:21:45 mgaido

Ich habe vergessen hinzuzufügen: Ich bin auf 1.4.1. – Ian

dann funktioniert es nicht, sorry .. – mgaido

Kein Weg um es in pre-1.6.0? – Ian

Spark read.json mit Dateinamen

Antwort

Verwandte Themen