pyspark datenframe verschmelzen mehrere json-dateidaten in einem datenframe

-1

Ich versuche, mehrere JSON-Dateien Daten in einem Datenrahmen zusammenführen, bevor Sie eine Operation auf diesem Datenrahmen. Lets sagen, dass ich zwei Dateien file1.txt haben, file2.txt diepyspark datenframe verschmelzen mehrere json-dateidaten in einem datenframe

Daten wie

file1.txt enthält

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}

file2.txt

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}

So durch lese ich beide Dateien ein einer wie dieser

Aber der Datenrahmen überschreibt die ersten Datenframe Daten und zeigt nur die 2. dat Bilddaten Wie kann ich diese Datenrahmen erstellen? Danke im Voraus!

Quelle

2017-03-01 gashu

Sie müssen Union-Datenrahmen anstelle von df Variable. Zum Beispiel:

>>> dataframes = map(lambda r: spark.read.json(r), range) 
>>> union = reduce(lambda df1, df2: df1.unionAll(df2), dataframes)

Above Code ordnet alle Dateien aus range Array zu entsprechenden Datenrahmen und Gewerkschaften sie alle.

Quelle

2017-03-01 19:38:36 Mariusz

Danke für die schnelle Antwort. Es funktioniert einwandfrei. – gashu

pyspark datenframe verschmelzen mehrere json-dateidaten in einem datenframe

Antwort

Verwandte Themen