-1

Ich versuche, mehrere JSON-Dateien Daten in einem Datenrahmen zusammenführen, bevor Sie eine Operation auf diesem Datenrahmen. Lets sagen, dass ich zwei Dateien file1.txt haben, file2.txt diepyspark datenframe verschmelzen mehrere json-dateidaten in einem datenframe

Daten wie

file1.txt enthält

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} 

file2.txt

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} 

So durch lese ich beide Dateien ein einer wie dieser

Aber der Datenrahmen überschreibt die ersten Datenframe Daten und zeigt nur die 2. dat Bilddaten Wie kann ich diese Datenrahmen erstellen? Danke im Voraus!

Antwort

3

Sie müssen Union-Datenrahmen anstelle von df Variable. Zum Beispiel:

>>> dataframes = map(lambda r: spark.read.json(r), range) 
>>> union = reduce(lambda df1, df2: df1.unionAll(df2), dataframes) 

Above Code ordnet alle Dateien aus range Array zu entsprechenden Datenrahmen und Gewerkschaften sie alle.

+0

Danke für die schnelle Antwort. Es funktioniert einwandfrei. – gashu

Verwandte Themen