Amazon Athena Log Analysis Services mit S3 Gletscher
Wir haben Petabyte Daten in S3. Wir sind https://www.pubnub.com/ und wir speichern Nutzungsdaten in S3 unseres Netzwerks für Abrechnungszwecke. Wir haben tabulatorgetrennte Protokolldateien, die in einem S3-Bucket gespeichert sind. Athena gibt uns einen HIVE_CURSOR_ERROR
Fehler.Amazon AWS Athena S3 und Gletscher Mixed Bucket
Unser S3-Bucket wurde so eingerichtet, dass er nach 6 Monaten automatisch an AWS Glacier gesendet wird. Unser Bucket hat S3-Dateien heiß und bereit, zusätzlich zu den Glacier-Backup-Dateien zu lesen. Wir bekommen deswegen Zugriffsfehler von Athena. Die Datei, auf die in dem Fehler verwiesen wird, ist ein Glacebackup.
Meine Vermutung ist die Antwort wird sein: halten Sie Gletscher Backups nicht im selben Eimer. Aufgrund unserer Datenvolumengrößen haben wir diese Option nicht problemlos. Ich glaube, Athena wird in diesem Setup nicht funktionieren und wir können Athena nicht für unsere Log-Analyse verwenden.
Wenn es jedoch einen Weg gibt, Athena zu benutzen, wären wir begeistert. Gibt es eine Lösung für HIVE_CURSOR_ERROR
und eine Möglichkeit, Gletscher-Dateien zu überspringen? Unser s3 Eimer ist ein flacher Eimer ohne Ordner.
Die S3-Datei Objektnamen in der oben und unten Screenshots gezeigt wird aus dem Screenshot weggelassen. Die Dateireferenz in der HIVE_CURSOR_ERROR
ist tatsächlich das Glacier-Objekt. Sie können es in diesem Screenshot unseres S3 Bucket sehen.
Hinweis habe ich versucht, auf https://forums.aws.amazon.com/ zu schreiben, aber das war kein bueno.
Ich denke, das könnte ein Fehler in Athena sein. Nirgendwo in der Athena-Dokumentation erwähnen sie Gletscher. – spg
Ich habe einige weitere Details hinzugefügt, die zeigen, dass unser s3-Objektdateiname tatsächlich im Gletscherobjektzustand ist. – PubNub