2017-03-03 4 views
0

Click here to see ImageParse JSON-Daten mit Apache Spark und Scala

Ich habe diese Art von Datei mit Daten, bei denen jede Zeile ist ein JSON-Objekt mit Ausnahme ersten Wörter (eingebundene Bild sehen). Ich möchte diese Art von Datei mit Spark und Scala analysieren. Ich habe es mit sqlContext.read.json ("Pfad zu JSON-Datei") versucht, aber es gibt mir Fehler (beschädigte Daten), weil ganze Daten kein JSON-Objekt ist. Wie analysiere ich diese JSON-Datei zum SQL-Dataframe?

+0

Wenn Sie ungültige JSON, können Sie es nicht analysieren kann jedes Werkzeug mit –

+0

diese ungültig ist JSON? –

+0

Nun, die Tatsache, dass Sie nicht JSON Daten vor dem eigentlichen JSON haben, dann ja, es ist in Sparks Augen nicht gültig. Sie müssen diese Daten separat extrahieren –

Antwort

1

Try this:

val rawRdd = sc.textFile("path-to-the-file") 
val jsonRdd = rawRdd.map(_.substring(32)) //32 - number of first characters to ignore 

val df = spark.read.json(jsonRdd) 
+0

Letzter Befehl gab mir einen Fehler unten gezeigt. bei org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus (FileInputFormat.java:287) bei org.apache.hadoop.mapred.FileInputFormat.listStatus (FileInputFormat.java:229) –

+0

wäre es einfacher, wenn Sie einige bieten könnte Beispieldaten zum Testen. – semsorock

+0

Welche Version von Spark verwenden Sie? – semsorock