0

Ausnahme:Hive Auswahlabfrage fehlgeschlagen auf ORC Tabelle

mit Ausnahme java.io.IOException Failed: java.io.IOException: Irgendwie lesen -1 Bytes versucht 6257 mehr Bytes zu überspringen zu suchen zu positionieren 6708, Größe: 1290047

Hat jemand eine Idee, wie man es auf Cloud Dataproc beheben kann?

Antwort

1

Es sieht so aus, als würden Sie wahrscheinlich this known issue treffen, was etwas spezifisch für das Lesen von ORC-Dateien ist. Die GCS-Connector-Version 1.5.4 hat den Fix und wird diese Woche in Dataproc eingeführt (voraussichtlich bis Freitag, 14. Oktober).

In der Zwischenzeit können Sie eine kleine Initialisierungsaktion verwenden, um die Connector-Version in Ihren dataproc-Clustern automatisch zu aktualisieren. Erstellen Sie eine Datei namens update-gcs-1.5.4.sh:

#!/bin/bash 
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar 
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/ 

Und dann diese Datei GCS laden irgendwo:

gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh 

Dann erstellen Sie Ihre Dataproc Cluster:

gcloud dataproc clusters create \ 
    --initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh 
Verwandte Themen