Ich muss einen externen Prozess von meinem EMR Spark-Job aufrufen. Ich sehe, dass rdd.pipe
mir erlauben würde, eine RDD zu einem Prozess zu leiten. (Nebenbei, ist das ein Prozess pro RDD oder einer pro Element?).RDD zu in.file zu externem Prozess zu out.file zu RDD
Allerdings erfordert mein externer Prozess einen Dateinamen als Eingabe und generiert eine Datei als Ausgabe.
Wie kann ich diesen externen Prozess aufrufen und anschließend die Ausgabedatei als RDD laden?