Ich habe pip boto3
auf meinem lokalen Rechner installiert, und dann habe ich Spark-Submit im lokalen Modus ausgeführt, während die Weitergabe des Pfades an das Verzeichnis boto3
installiert ist folgender Befehl ein:Spark kann nicht importieren Pip-Modul nach der Pip-Installation
spark-submit --conf spark.driver.extraClassPath=/Library/Python/2.7/site-packages app.py
Und dann, wenn import boto3
in meinem app.py
, die gefürchteten module not found
Fehler auslöst.
Ist dies die richtige Methode zum Hinzufügen einer pip-installierten Python-Abhängigkeit zu einem Spark-Submit-Job?
Haben Sie 'boto3' auf allen anderen Knoten im Cluster installiert, falls vorhanden? –
@ cricket_007 Es gibt keine anderen Knoten im Cluster. Dies ist der lokale Modus mit einem Knoten. auf einem lokalen Desktop-Computer. – Kristian
Und Sie können diese Datei außerhalb von PySpark selbst ausführen? –