2016-07-10 7 views
3

Ich muss ein Verzeichnis von einem Cluster zu einem anderen mit ähnlichen HDFS kopieren (beide sind MAPR-Cluster).DistCp Fehlertoleranz zwischen zwei Remote-Clustern

Ich bin geplant, DistCp Java API zu verwenden. Aber ich wollte doppelte Kopien von Dateien im Verzeichnis vermeiden. Ich wollte wissen, ob diese Operationen fehlertolerant sind. Wenn zB die Dateien wegen Verbindungsverlust nicht vollständig kopiert werden, wenn der DistCp die Kopien erneut startet, um eine Datei korrekt zu kopieren?

+0

pls antworten auf die Antworten. so dass mehr Benutzer die Motivation bekommen, um schnelle Antworten zu geben –

Antwort

1

distcp MapReduce verwendet, um seine Verteilung, Fehlerbehandlung und -wiederherstellung und Berichterstattung zu bewirken.

Bitte sehen Update and Overwrite

Sie -overwrite Option können Duplikate Außerdem vermeiden, können Sie Update-Option überprüfen, wie gut. Wenn die Netzwerkverbindung ausfällt, sobald die Verbindung wiederhergestellt, dann können Sie erneut initiieren mit Option zum Überschreiben

Siehe Beispiele von -update und -overwrite wie in obigen Führungs Link erwähnt.

+0

@ user2021147 war meine Antwort hilfreich? wenn ja, pls voice-up "akzeptiert vom eigentümer" danke –

0

Hier der Link für Refactoring distcp ist: https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html

As „@RamPrasad G“ erwähnt, ich denke, Sie keine andere Möglichkeit haben, als die distcp im Falle eines Netzausfalls wiederholen.

Einige gut liest:

Hadoop distcp Netzausfälle mit WebHDFS

http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/

Distcp zwischen zwei HA Cluster

http://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/

Übertragen von Daten zu/von Altiscale über S3 mit DistCp

https://documentation.altiscale.com/transferring-data-using-distcp Diese Seite hat einen Link für ein Shell-Skript mit Wiederholungs, die Ihnen nützlich sein könnten.

Hinweis: Danke an die ursprünglichen Autoren.