Es sieht so aus, als würden Sie wahrscheinlich this known issue treffen, was etwas spezifisch für das Lesen von ORC-Dateien ist. Die GCS-Connector-Version 1.5.4 hat den Fix und wird diese Woche in Dataproc eingeführt (voraussichtlich bis Freitag, 14. Oktober).
In der Zwischenzeit können Sie eine kleine Initialisierungsaktion verwenden, um die Connector-Version in Ihren dataproc-Clustern automatisch zu aktualisieren. Erstellen Sie eine Datei namens update-gcs-1.5.4.sh
:
#!/bin/bash
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/
Und dann diese Datei GCS laden irgendwo:
gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh
Dann erstellen Sie Ihre Dataproc Cluster:
gcloud dataproc clusters create \
--initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh