2016-04-08 4 views
1

CDH Verteilung (Version 5.6.0) mit Impala (Version 2.4.0) sein.Cloudera Impala: Datei hat eine ungültige Versionsnummer. Dies könnte aufgrund veralteter Metadaten

Ich habe einige Parkett-Dateien in HDFS gespeichert.

create external table parquetTable 
like parquet 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet' 
stored as parquet location 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/; 

Bei der folgenden Abfrage aller Dateien erfolgreich aufgeführt: Als nächstes habe ich diese Dateien in eine Impala externe Tabelle mit der folgenden Abfrage geladen

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > show files in parquettable; 

Auch die Metadaten korrekt (überprüft durch Ausführen von describe parquettable).

Die Werte der Tabelle sind:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > show table stats parquettable; 

Rows | Files | Size | Bytes Cached | Cache Replication | Format | Incremental stats | Location

-1 | 838 | 249.64GB | NOT CACHED | NOT CACHED | PARQUET | false | hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data

Die Ausführung der folgenden Abfrage:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > select count(*) from parquettable; 

Ergebnisse in der folgenden WARNUNG, jedoch ohne Ausgabeergebnis oder Fehler:

File 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet' has an invalid version number: ▒.F/ This could be due to stale metadata. Try running "refresh default.parquettable".

Das Ausführen refresh default.parquettable hatte keinen Effekt.

Jede Hilfe wird geschätzt!

+0

Können Sie versuchen, "Invalidate Metadaten" Befehl in Impala Shell ausführen und die Abfrage erneut versuchen? – Lan

+0

@Lan Ich habe das auch probiert, aber immer noch keinen Erfolg. Die Warnmeldung bleibt gleich und keine Ausgabe. –

+0

Wie erstellen Sie den Parketttisch? – Lan

Antwort

1

Ihre Schritte sehen gut aus. Der Fehler beschwert sich über part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet, während Sie part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet beim Erstellen der Tabelle verwenden . Es sieht also so aus, als gäbe es ein Problem in part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet. Können Sie alle Dateien in der Tabelle big_data außer Teil-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet loswerden?

Verwandte Themen