2016-06-16 7 views
1

Ist es möglich, mehrere Dateien als einen Datenrahmen zu laden? Normalerweise, wenn ich eine Datei zu laden, werde ich zum Beispiel nennen:Mehrere Dateien in Dataframe laden

file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" 
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1) 

Aber ich mag alle Dateien im Ordner /a/b/c/folder/*.csv laden.

+0

Was passiert, wenn Sie 'dc = sqlContext.read.format ('com.databricks.spark.csv') versuchen. header = 'false', inferschema = 'true'). load ("a/b/c/ordner/*. csv") 'Gibt es einen Fehler? Funktioniert es? –

+0

Ich bekomme einen Fehler "java.lang.ArrayIndexOutOfBoundsException: 18002" – hdy

Antwort

0

Ich denke sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder) funktioniert. Zuvor habe ich Fehler bekommen, weil ich fertige komprimierte Dateien habe, und sie sind übergroß im Vergleich zum Speicher

Verwandte Themen