Ich frage mich, ob wir die folgenden Anweisungen:Ist ein gefiltertes RDD noch im Cache, wenn sie auf einem im Cache gespeicherten RDD ausgeführt
val rdd : = sc.textFile("myfile").zipwithIndex.cache
val size = rdd.count
val filter = rdd.filter(_._2 % 2 == 0)
val sizeF = filter.count
Die Aktion auf dem Filter durchgeführt RDD ist auszuführen, als ob es im Cache oder nicht? Trotz der Tatsache, dass wir eine zweite RDD von der ersten erstellen, kamen die Informationen von der gleichen Stelle, also frage ich mich, ob sie in ein neues Objekt kopiert wird, das zwischengespeichert werden muss oder ob das gefilterte Objekt direkt mit seiner übergeordneten verknüpft ist schnellere Aktionen ermöglichen? Keine