Da ich das Ressourcenlimit in meinem Spark-Programm erreicht habe, möchte ich die Verarbeitung in Iterationen unterteilen und die Ergebnisse von jeder Iteration in das HDFS hochladen, wie unten gezeigt.Wie werden zwei RDDs seriell in Spark verarbeitet?
do something using first rdd
upload the output to hdfs
do something using second rdd
upload the output to hdfs
Aber soweit ich weiß, wird Spark versuchen, diese beiden parallel zu laufen. Gibt es eine Möglichkeit, auf die Verarbeitung der ersten RDD zu warten, bevor die zweite RDD verarbeitet wird?
Wer hat Ihnen gesagt, dass Spark versuchen wird, beide RDDs parallel zu verarbeiten? Das ist falsch! – eliasah
Also wird das seriell verarbeitet? – pythonic
Ja! Wenn du es getestet hättest, hättest du es gewusst. – eliasah