MrJob auf Hadoop kann nicht Bibliotheken importieren

Ich bin mit CDH 5.7.2 und MrJob einen MapReduce JobMrJob auf Hadoop kann nicht Bibliotheken importieren

einreichen Wenn ich versuche, in localmode, funktioniert alles einwandfrei, aber wenn ich -r hadoop verwende Es gibt mir folgende Fehler:

Task Id : attempt_1471071791922_0005_m_000001_2, Status : FAILED 
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 
     at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325) 
     at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538) 
     at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130) 
     at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61) 
     at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34) 
     at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453) 
     at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343) 
     at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164) 
     at java.security.AccessController.doPrivileged(Native Method) 
     at javax.security.auth.Subject.doAs(Subject.java:415) 
     at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693) 
     at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

ich fand heraus, dass Problem tritt auf, wenn ich versuche, Bibliothek zu importieren:

import geopy 
from geopy.distance import great_circle

Dies ist

, wie ich mein Skript ausführen:

python test2.py -r hadoop hdfs:///user/dataset/test_data --hadoop-streaming-jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar

P. S. MrJob kann nicht Hadoop-Streaming-jar, so dass ich es manuell eingeben

Wie kann ich MapReduce Jon auf Hadoop mit Bibliothek importieren ausführen?

Quelle

2016-08-13 Vadym B.

versuchen Sie einen weiteren Parameter um während der Ausführung -libjars hinzufügen/pathtoyour3rdpartylib – Aditya

Ich bin nicht sicher, ob ich habe irgendwelche Python-Bibliotheken als JAR-Dateien –

Antwort gefunden von mir.

Was ich zu tun habe - ist diese Bibliothek auf all meine Knoten (nicht nur auf Master) installieren

Quelle

2016-08-18 07:09:05

MrJob auf Hadoop kann nicht Bibliotheken importieren

Antwort

Verwandte Themen