Es wird von Spark-Dokumentation über Scheduling Within an Application verstanden:Wie führe ich mehrere Jobs in einem Sparkcontext aus separaten Threads in PySpark aus?
Innerhalb einer bestimmten Spark-Anwendung (SparkContext Instanz) können mehrere parallele Jobs gleichzeitig laufen, wenn sie aus verschiedenen Threads eingereicht wurden. Mit "Auftrag" meinen wir in diesem Abschnitt eine Spark-Aktion (z. B. speichern, sammeln) und alle Tasks, die ausgeführt werden müssen, um diese Aktion auszuwerten. Spark-Scheduler ist vollständig Thread-sicher und unterstützt diesen Anwendungsfall Anwendungen zu ermöglichen, die mehrere Anforderungen (zB Anfragen für mehrere Benutzer) dienen.“
ich einige Beispiel-Code von der gleichen in Scala und Java. gefunden konnte Can jemand gibt ein Beispiel, wie dies mit PySpark implementiert werden kann?
überhaupt eine Antwort hier bekommen? Ich versuche das Gleiche zu tun und denke, dass es eigentlich unmöglich ist, bis zu 'SparkContext' eine bessere Sperrung hinzugefügt wird. –
@MikeSukmanowsky was meinst du? Dieses Dokument spricht nicht von einer bestimmten Spark-API, sondern scheint für alle zu funktionieren. Der eigentliche Code, der bei Verwendung einer der APIs ausgeführt wird, ist der Scala-Code und ein Schnittstellencode für Java und Python. – Dici
Können Sie den Link angeben, woher diese Aussage stammt? – Jon