Ich versuche eine AWS Datapipeline-Aufgabe zu erstellen, die einen EMR-Cluster erstellt und ein einfaches Wordcount.py-Spark-Programm ausführt. Ich benutzte die datapipeline Definition, wo Schritte ist einfach wie:Wie füge ich Python Funken Schritt in EMR hinzu?
"myEmrStep": "s3://test/wordcount.py,s3://test/data/abc.txt,s3://test/output/outfile5/",
Wenn ich nun die Aufgabe zu aktivieren, ich einen Fehler wie:
Exception in thread "main" java.io.IOException: Fehler beim Öffnen des Jobs jar: /mnt/var/lib/hadoop/steps/s-187JR8H3XT8N7/wordcount.py um org.apache.hadoop.util.RunJar.run (RunJar.java:160) um org.apache. hadoop.util.RunJar.main (RunJar.java:136) Verursacht von: java.util.zip.ZipException: Fehler beim Öffnen der Zip-Datei unter java.util.zip.ZipFile.open (Nativ e Method) bei java.util.zip.ZipFile. (ZipFile.java:215) bei
scheint, wie die Schritte des Programms unter Verwendung von Java anstelle von Python auszuführen versucht. Irgendeine Idee, bitte.
Danke.