ich baute eine python module und ich möchte es in meine pyspark-anwendung importieren.pyspark importieren benutzerdefiniertes modul oder .py dateien
Mein Paket Verzeichnisstruktur ist:
wesam/
|-- data.py
`-- __init__.py
Ein einfaches import wesam
an der Spitze meiner pyspark Skript ImportError: No module named wesam
führt. Ich habe auch versucht, es zu zippen und es mit meinem Code mit --py-files
als recommended in this answer, ohne Glück zu versenden.
./bin/spark-submit --py-files wesam.zip mycode.py
Ich habe auch die Datei programmatisch vorgeschlagen, wie durch this answer, aber ich habe die gleichen ImportError: No module named wesam
Fehler.
.sc.addPyFile("wesam.zip")
Was fehlt mir hier?
dies ist sehr explizit und nützlich. Danke! – watsonic
Während dies funktionieren könnte, trennen Sie effektiv Ihr env durch Ihre (vermutlich) global dated $ HOME/.bashrc. Gibt es wirklich keine Möglichkeit, den PYTHONPATH der Worker-Module dynamisch festzulegen? Der Grund, warum Sie dies tun möchten, ist, dass Sie von der ipython REPL interagieren und parallele Jobs senden möchten, die von einem Modul abhängen, das auf NFS im PYTHONPATH sitzt (think python setup.py develop mode). – mathtick