Ich versuche, die JSON-Datei mit Spark v2.0.0 zu lesen. Bei einfachem Datencode klappt das wirklich gut. Im Falle von wenig komplexen Daten, wenn ich df.show() drucke, werden die Daten nicht richtig angezeigt.Lesen der JSON-Datei mit Apache Spark
hier ist mein Code:
SparkSession session = SparkSession.builder().master("local").appName("jsonreader").getOrCreate();
Dataset<Row> list = session.read().json("/Users/hadoop/Desktop/sample.json");
list.show();
Hier ist mein Beispieldaten:
{
"glossary": {
"title": "example glossary",
"GlossDiv": {
"title": "S",
"GlossList": {
"GlossEntry": {
"ID": "SGML",
"SortAs": "SGML",
"GlossTerm": "Standard Generalized Markup Language",
"Acronym": "SGML",
"Abbrev": "ISO 8879:1986",
"GlossDef": {
"para": "A meta-markup language, used to create markup languages such as DocBook.",
"GlossSeeAlso": ["GML", "XML"]
},
"GlossSee": "markup"
}
}
}
}
}
Und meine Ausgabe ist wie:
+--------------------+
| _corrupt_record|
+--------------------+
| {|
| "glossary": {|
| "title": ...|
| "GlossDiv": {|
| "titl...|
| "GlossList": {|
| "...|
| ...|
| "SortAs": "S...|
| "GlossTerm":...|
| "Acronym": "...|
| "Abbrev": "I...|
| "GlossDef": {|
| ...|
| "GlossSeeAl...|
| ...|
| "GlossSee": ...|
| }|
| }|
| }|
+--------------------+
only showing top 20 rows
Danke für Ihre Antwort .. als ich versuchte, habe ich dies als Ausgabe. + -------------------- + | Glossar | + -------------------- + | [[[[ISO 8879: 1986 ... | + -------------------- + – user6325753
Das ist zu erwarten. Eine Beispielaktion hinzugefügt, um die Auswertung/Verarbeitung anzuzeigen –