Auf meinem Cluster habe ich die konsistente Ansicht von emrfs aktiviert und es funktioniert einwandfrei, wenn Spark-Jobs ausgeführt werden.emrfs konsistente Ansicht und Befehlszeile Kopieren/Löschen
Allerdings finde ich es mühsam, Metadaten nach generischen s3-Operationen manuell zu synchronisieren/zu löschen/importieren.
Zum Beispiel nach einer Kopie, s3 inkonsistent:
aws s3 cp localfile1 s3://bucket/path/
emrfs sync s3://bucket/path/
emrfs diff s3://bucket/path/
BOTH | MANIFEST ONLY | S3 ONLY
DIR bucket/path/ (BOTH)
FILE bucket/path/localfile1 (BOTH)
Hier localfile1 und Metadaten sind synchron.
aws s3 cp localfile2 s3://bucket/path/
emrfs diff s3://bucket/path/
BOTH | MANIFEST ONLY | S3 ONLY
DIR bucket/path/ (BOTH)
FILE bucket/path/localfile1 (BOTH)
FILE bucket/path/localfile2 (S3 ONLY)
Gibt es eine Möglichkeit Metadaten mit s3 synchron zu halten, wenn Operationen wie das direkt aus dem EMR-Cluster, wo konsistente Sicht aktiviert ausführt? Versuchen
Dank
Können Sie bitte versuchen, die hdfs kopieren und emrfs diff sehen. Ich denke, es wird das Problem lösen. Emrfs konsistente Sicht ist für Hadoop-Operationen und Hadoop-Jobs – Achyuth