2017-05-18 5 views
2

Auf meinem Cluster habe ich die konsistente Ansicht von emrfs aktiviert und es funktioniert einwandfrei, wenn Spark-Jobs ausgeführt werden.emrfs konsistente Ansicht und Befehlszeile Kopieren/Löschen

Allerdings finde ich es mühsam, Metadaten nach generischen s3-Operationen manuell zu synchronisieren/zu löschen/importieren.

Zum Beispiel nach einer Kopie, s3 inkonsistent:

aws s3 cp localfile1 s3://bucket/path/ 
emrfs sync s3://bucket/path/ 
emrfs diff s3://bucket/path/ 

BOTH | MANIFEST ONLY | S3 ONLY 
DIR bucket/path/   (BOTH) 
FILE bucket/path/localfile1 (BOTH) 

Hier localfile1 und Metadaten sind synchron.

aws s3 cp localfile2 s3://bucket/path/ 
emrfs diff s3://bucket/path/ 

BOTH | MANIFEST ONLY | S3 ONLY 
DIR bucket/path/   (BOTH) 
FILE bucket/path/localfile1 (BOTH) 
FILE bucket/path/localfile2 (S3 ONLY) 

Gibt es eine Möglichkeit Metadaten mit s3 synchron zu halten, wenn Operationen wie das direkt aus dem EMR-Cluster, wo konsistente Sicht aktiviert ausführt? Versuchen

Dank

+0

Können Sie bitte versuchen, die hdfs kopieren und emrfs diff sehen. Ich denke, es wird das Problem lösen. Emrfs konsistente Sicht ist für Hadoop-Operationen und Hadoop-Jobs – Achyuth

Antwort

0

die hdfs kopieren und sehen die emrfs Diff. Es wird das Problem lösen. Emrfs konsistente Sicht ist für Hadoop-Operationen und Hadoop-Jobs.

aws s3 cp

Befehle gehen nicht durch hadoop. So

wenn wir emrfs tun diff auf das Objekt, das kopiert werden aws s3 Befehle verwenden, werden sie nur s3 nur

Verwandte Themen