Ich habe viele JSON-Dateien, aber sie sind nicht korrekt für Spark formatiert. Ich möchte Code nicht schreiben, um sie speziell in das richtige Format zu konvertieren, indem ich jedes Diktat in jeder Zeile normalisiere.Fusion Spark RDDs von schlechten JSON
Stattdessen hoffe ich, Funken zu verwenden, um ihren Inhalt zu analysieren. Ich habe die folgenden
import json
import os
json_dir = '/data/original/TEMP'
df = sc.wholeTextFiles(os.path.join(json_dir,'*.json'))
j_docs = df.map(lambda x: json.loads(x[1])).cache()
Dies funktioniert gut und j_docs ist im Wesentlichen eine Liste von Listen. Zum Beispiel ist das erste Element in j_docs eine Liste von Dicts aus der ersten Datei.
Ich möchte alle diese einzelnen Listen in einer großen RDD kombinieren. Im Idealfall ohne ein Sammeln der Daten durchführen zu müssen.
Dank
Verwenden flatMap statt Karte? – C4stor
Ja Mann! Vielen Dank. – browskie