Ich habe einen Funken Job, die Daten von einer externen Hive Tabelle lesen und einige Transformation tun und Daten in einer anderen internen Hive Tabelle erneut speichernSpark-SQL: HiveContext nicht ignorieren Header
val sparkConf = new SparkConf().setAppName("Bulk Merge Daily Load Job")
val sparkContext = new SparkContext(sparkConf)
val sqlContext = new HiveContext(sparkContext)
// Data Ingestion
val my_df = sqlContext.sql("select * from test")
// Transformation
...
...
// Save Data into Hive
my_df.write.format("orc")
.option("orc.compress","SNAPPY")
.mode(SaveMode.Overwrite)
.saveAsTable("my_internal_table")
Die externe Tabelle ist mit der dieser tblproperties
Linie erstellt:
tblproperties ("skip.header.line.count"="1");
Mein Problem ist, dass ich in meinen Zeilen in der Tabelle my_internal_table
eine zusätzliche Zeile, die die Spalte Namen gefunden.
Ich denke, dies ist im Zusammenhang mit dieser issue:
I Funke 1.6.0
Können Sie mir helfen, auf diesem:
- dieser Fehler in
1.6.0
vorkommendes Ist immer noch? - Gibt es einen einfachen Weg, dies zu vermeiden?
PS: Ich verarbeite große Datei> 10Go.
Vielen Dank im Voraus für Ihre Antwort.
Das JIRA ist immer noch "ungelöst" und es ist offensichtlich, dass niemand daran arbeitet, also warum fragst du? Finden Sie einfach einen Workaround ... –
Haben Sie eine Lösung gefunden? Ich habe das gleiche Problem –