2017-02-27 11 views
3

ich den folgenden Code verwenden für die Erstellung/Daten in eine Tabelle Hive in Spark-SQL Einfügen:Spark-SQL saveAsTable kehrt leer Ergebnis

val sc = SparkSession 
    .builder() 
    .appName("App") 
    .master("local[2]") 
    .config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse") 
    .enableHiveSupport() 
    .getOrCreate() 

// actual code 

result.createOrReplaceTempView("result") 
result.write.format("parquet").partitionBy("year", "month").mode(SaveMode.Append).saveAsTable("tablename") 

, die ohne Fehler ausgeführt wird. A result.show(10) bestätigt dies. Die Eingabedateien sind csv auf dem lokalen FS.

Es erstellt Parkettdateien unter ./spark-warehouse/tablename/ und erstellt auch die Tabelle im Bienenstock, mit einer korrekten create-Tabelle-Anweisung.

git:(master) ✗ tree 
. 
└── tablename 
    ├── _SUCCESS 
    └── year=2017 
     └── month=01 
      ├── part-r-00013-abaea338-8ed3-4961-8598-cb2623a78ce1.snappy.parquet 
      ├── part-r-00013-f42ce8ac-a42c-46c5-b188-598a23699ce8.snappy.parquet 
      ├── part-r-00018-abaea338-8ed3-4961-8598-cb2623a78ce1.snappy.parquet 
      └── part-r-00018-f42ce8ac-a42c-46c5-b188-598a23699ce8.snappy.parquet 

Struktur:

hive> show create table tablename; 
OK 
CREATE TABLE `tablename`(
    `col` array<string> COMMENT 'from deserializer') 
ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES (
    'path'='file:/Users/IdeaProjects/project/spark-warehouse/tablename') 
STORED AS INPUTFORMAT 
    'org.apache.hadoop.mapred.SequenceFileInputFormat' 
OUTPUTFORMAT 
    'org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat' 
LOCATION 
    'file:/tmp/spark-warehouse/tablename' 
TBLPROPERTIES (
    'EXTERNAL'='FALSE', 
    'spark.sql.sources.provider'='parquet', 
    'spark.sql.sources.schema.numPartCols'='2', 
    'spark.sql.sources.schema.numParts'='1', 
    'spark.sql.sources.schema.part.0'='{ 
    // fields 
    }', 
    'spark.sql.sources.schema.partCol.0'='year', 
    'spark.sql.sources.schema.partCol.1'='month', 
    'transient_lastDdlTime'='1488157476') 

Allerdings ist die Tabelle leer:

hive> select count(*) from tablename; 
... 
OK 
0 
Time taken: 1.89 seconds, Fetched: 1 row(s) 

Software: Funken 2.1.0 mit Funken SQL und funken hive_2.10, Hive 2.10 und ein MySQL-Metastore, Hadoop 2.70, MacOS 10.12.3

+0

Haben Sie versucht, die Tabelle aus der Hive-Konsole zu löschen und sie erneut aus Spark zu erstellen? Sie speichern Daten als parqet aber Hive sagt, dass org.apache.hadoop.mapred.SequenceFileInputFormat das Eingabeformat ist - ich denke, das ist Grund für die leere Anzahl. – Mariusz

Antwort

0

Spark SQL-Partitionierung ist nicht kompatibel mit Hive. Dieses Problem wird von SPARK-14927 dokumentiert.

Als empfohlene Problemumgehung können Sie partitionierte Tabelle mit Hive erstellen und nur aus Spark einfügen.