6

Amazon Athena Log Analysis Services mit S3 Gletscher

Wir haben Petabyte Daten in S3. Wir sind https://www.pubnub.com/ und wir speichern Nutzungsdaten in S3 unseres Netzwerks für Abrechnungszwecke. Wir haben tabulatorgetrennte Protokolldateien, die in einem S3-Bucket gespeichert sind. Athena gibt uns einen HIVE_CURSOR_ERROR Fehler.Amazon AWS Athena S3 und Gletscher Mixed Bucket

Unser S3-Bucket wurde so eingerichtet, dass er nach 6 Monaten automatisch an AWS Glacier gesendet wird. Unser Bucket hat S3-Dateien heiß und bereit, zusätzlich zu den Glacier-Backup-Dateien zu lesen. Wir bekommen deswegen Zugriffsfehler von Athena. Die Datei, auf die in dem Fehler verwiesen wird, ist ein Glacebackup.

Meine Vermutung ist die Antwort wird sein: halten Sie Gletscher Backups nicht im selben Eimer. Aufgrund unserer Datenvolumengrößen haben wir diese Option nicht problemlos. Ich glaube, Athena wird in diesem Setup nicht funktionieren und wir können Athena nicht für unsere Log-Analyse verwenden.

Wenn es jedoch einen Weg gibt, Athena zu benutzen, wären wir begeistert. Gibt es eine Lösung für HIVE_CURSOR_ERROR und eine Möglichkeit, Gletscher-Dateien zu überspringen? Unser s3 Eimer ist ein flacher Eimer ohne Ordner.

AWS Athena S3 Operation Exception

Die S3-Datei Objektnamen in der oben und unten Screenshots gezeigt wird aus dem Screenshot weggelassen. Die Dateireferenz in der HIVE_CURSOR_ERROR ist tatsächlich das Glacier-Objekt. Sie können es in diesem Screenshot unseres S3 Bucket sehen.

Amazon S3 Bucket object in Glacier accessed by Athena

Hinweis habe ich versucht, auf https://forums.aws.amazon.com/ zu schreiben, aber das war kein bueno.

enter image description here

+2

Ich denke, das könnte ein Fehler in Athena sein. Nirgendwo in der Athena-Dokumentation erwähnen sie Gletscher. – spg

+0

Ich habe einige weitere Details hinzugefügt, die zeigen, dass unser s3-Objektdateiname tatsächlich im Gletscherobjektzustand ist. – PubNub

Antwort

3

Die documentation from AWS vom 16. Mai 2017 heißt es ausdrücklich Athena nicht die GLACIER Speicherklasse unterstützt:

Athena verschiedene Speicherklassen innerhalb der Eimer nicht durch die Lage Klausel angegeben unterstützen, unterstützt nicht die GLACIER-Speicherklasse und unterstützt keine Requester Pays Buckets. Weitere Informationen finden Sie unter Storage Classes, Changing the Storage Class of an Object in |S3| und Requester Pays Buckets im Amazon Simple Storage Service-Entwicklerhandbuch.

Wir sind auch daran interessiert; Wenn Sie es zur Arbeit bringen, lassen Sie uns bitte wissen, wie. :-)

+0

Danke! Das macht Sinn. Übrigens sind wir Athena User-Experten geworden. Presto ist großartig. – PubNub