ich den folgenden Code verwenden für die Erstellung/Daten in eine Tabelle Hive in Spark-SQL Einfügen:Spark-SQL saveAsTable kehrt leer Ergebnis
val sc = SparkSession
.builder()
.appName("App")
.master("local[2]")
.config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse")
.enableHiveSupport()
.getOrCreate()
// actual code
result.createOrReplaceTempView("result")
result.write.format("parquet").partitionBy("year", "month").mode(SaveMode.Append).saveAsTable("tablename")
, die ohne Fehler ausgeführt wird. A result.show(10)
bestätigt dies. Die Eingabedateien sind csv auf dem lokalen FS.
Es erstellt Parkettdateien unter ./spark-warehouse/tablename/
und erstellt auch die Tabelle im Bienenstock, mit einer korrekten create-Tabelle-Anweisung.
git:(master) ✗ tree
.
└── tablename
├── _SUCCESS
└── year=2017
└── month=01
├── part-r-00013-abaea338-8ed3-4961-8598-cb2623a78ce1.snappy.parquet
├── part-r-00013-f42ce8ac-a42c-46c5-b188-598a23699ce8.snappy.parquet
├── part-r-00018-abaea338-8ed3-4961-8598-cb2623a78ce1.snappy.parquet
└── part-r-00018-f42ce8ac-a42c-46c5-b188-598a23699ce8.snappy.parquet
Struktur:
hive> show create table tablename;
OK
CREATE TABLE `tablename`(
`col` array<string> COMMENT 'from deserializer')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'path'='file:/Users/IdeaProjects/project/spark-warehouse/tablename')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.SequenceFileInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat'
LOCATION
'file:/tmp/spark-warehouse/tablename'
TBLPROPERTIES (
'EXTERNAL'='FALSE',
'spark.sql.sources.provider'='parquet',
'spark.sql.sources.schema.numPartCols'='2',
'spark.sql.sources.schema.numParts'='1',
'spark.sql.sources.schema.part.0'='{
// fields
}',
'spark.sql.sources.schema.partCol.0'='year',
'spark.sql.sources.schema.partCol.1'='month',
'transient_lastDdlTime'='1488157476')
Allerdings ist die Tabelle leer:
hive> select count(*) from tablename;
...
OK
0
Time taken: 1.89 seconds, Fetched: 1 row(s)
Software: Funken 2.1.0 mit Funken SQL und funken hive_2.10, Hive 2.10 und ein MySQL-Metastore, Hadoop 2.70, MacOS 10.12.3
Haben Sie versucht, die Tabelle aus der Hive-Konsole zu löschen und sie erneut aus Spark zu erstellen? Sie speichern Daten als parqet aber Hive sagt, dass org.apache.hadoop.mapred.SequenceFileInputFormat das Eingabeformat ist - ich denke, das ist Grund für die leere Anzahl. – Mariusz