Ich habe eine Bienenstock-Tabelle, die auf einer Last von externen Parkettdateien aufgebaut ist. Paruqet-Dateien sollten vom Funke-Job generiert werden, aber aufgrund der Einstellung von Metadaten-Flag auf false wurden sie nicht generiert. Ich frage mich, ob es möglich ist, es auf schmerzlose Weise wiederherzustellen. Die Struktur der Dateien ist wie folgt:Generieren von Metadaten für Parkettdateien
/apps/hive/warehouse/test_db.db/test_table/_SUCCESS
/apps/hive/warehouse/test_db.db/test_table/_common_metadata
/apps/hive/warehouse/test_db.db/test_table/_metadata
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-20
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-21
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-22
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-23
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-24
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-25
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-26
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-27
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-28
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-29
/apps/hive/warehouse/test_db.db/test_table/end_date=2016-04-30
Nehmen wir an, dass die Datei _metadata
nonexisting oder veraltet ist. Gibt es eine Möglichkeit, es über Hive-Befehl neu zu erstellen/generieren, ohne den gesamten Funke-Job zu starten?
@Niemand bitte bearbeiten Sie die Frage mit Ihrem letzten Kommentar! –
Sind die _metadata nicht in Ihren partitionierten Ordnern neben der .parquet-Datei enthalten? Können Sie auch die Dateien von einer Spark-Shell lesen? –
Ja, einige Metadaten sind in Dateien selbst vorhanden und ja, sie sind sowohl von Spark Shell als auch von Hive abfragbar. Es ist nur ich denke, Stock Abfragen ist viel langsamer ohne diese bestimmte _metadata Datei vorhanden. – Niemand