Ich versuche, 193 GB Daten von s3 nach HDFS zu kopieren. Ich laufe die folgenden Befehle für s3-distcp und hadoop distcp:s3-dist-cp und hadoop distcp job endlos in EMR
s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/
hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/
ich diese auf dem Master-Knoten renne und auch eine Kontrolle über die Menge zu halten übertragen werden. Es hat ungefähr eine Stunde gedauert und nach dem Kopieren wurde alles gelöscht, der Speicherplatz wird in den 4 Kerninstanzen meines Clusters als 99,8% angezeigt und der Hadoop-Job läuft für immer. Sobald ich den Befehl ausführen,
16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%
Dies wird sofort und kopiert dann über Daten für eine Stunde gedruckt. Es beginnt von vorne.
16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%
Fehlt mir hier etwas? Jede Hilfe wird geschätzt.
Auch ich würde gerne wissen, wo kann ich die Protokolldateien auf dem Master-Knoten finden, um zu sehen, ob der Job fehlschlägt und damit Schleife? Danke