Ich bin ein Funke-Job, der eine Eingabe, die von der gleichen vorherigen Job generiert wird. Momentan gibt der Job die Ergebnisse an HDFS aus, damit der nächste Lauf eingelesen werden kann. Gibt es eine Möglichkeit, die Ausgabe jedes Jobs in Spark zwischenzuspeichern, so dass der folgende Lauf nicht aus HDFS lesen muss?Spark: Cache RDD in einem anderen Job verwendet werden
Update: oder ist es möglich, dass Funken RDD zwischen verschiedenen Anwendungen teilen?
Apache Ignite wäre Ihre beste Wette. – morfious902002
Wie wäre es, wenn Sie einen zweiten Job als Streaming-Job schreiben? Ist das machbar? –
@ SumitKumarGhosh Nein, eigentlich sind diese beiden Jobs die gleichen, sie laufen einfach wiederholt, die Ausgabe eines Jobs wird die Eingabe desselben nächsten Jobs sein. – elgoog