Ich befolge den Rat an https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.html, einige JSON-Daten zu reinigen.Konvertieren Datensatz von JSON-Zeilen in Dataframe mit SparkSession
Allerdings ist das Handbuch veraltet und ich möchte sparkSession
verwenden, um den Datensatz zu laden und den JSON zu analysieren.
spark.read.text('file.json').as[String].map(x => parse_json(x))
So landete ich mit einem Dataset[String]
statt RDD[String]
up, wie lese ich die Zeilen von json im Datensatz?
Versuchen spark.read.text ('file.json'). Karte (x => parse_json (x)). Rdd – Pushkr
@Pushkr ja, Werke – user113531