Wenn Spark alle seine RDD-Operationen im Speicher selbst berechnet, welchen Unterschied macht RDD dann im Speicher bestehen?SPARK In Memory-Berechnung
Antwort
Wir können RDD beibehalten, um später mehr als eine Aktion oder Aktionsaktion auf RDD anzuwenden. Nach dem Fortbestehen wird der RDD-Funke alle Stufen überspringen, die für die Ausführung der Aktion berechnet werden müssen. Im funke werden alle Transformationen faul ausgewertet, dh wenn Sie action aufrufen, werden alle Transformationen in real ausgeführt. Wenn Sie collect() aufrufen, wird die Transformation ausgeführt und Sie erhalten eine der RDDs, wenn Sie erneut eine Aktion wie count ausführen es wird nicht erneut ausführen alle Transformation nur alle vor überspringen bestehen bleiben und zum Beispiel
val list = sc.parallelize(List(1,23,5,4,3,2))
val rdd1 = list.map(_+1)
val rdd2 = rdd1.map(_+5).cache
rdd2.collect
rdd2.count
wie im obigen Beispiel nicht beibehalten Teil ausgeführt werden, wenn rdd2.collect es alle oben Transformationen ausgeführt werden rufen, wie Sie RDD2 bemerken bereits cache also jetzt, wenn count aufgerufen wird, wird es nicht über der Transformation ausgeführt und verwendet persisted rdd, um Ergebnisse zu berechnen.
- 1. PCA in Spark MLlib und Spark ML
- 2. Spark Entscheidungsbaum mit Spark
- 3. Spark GraphX Spark-Shell vs Spark-Submit Leistungsunterschiede
- 4. Spark: wie man Spark Datei von Spark Shell
- 5. Spark Schritt in EMR
- 6. Fallklassengleichheit in Apache Spark
- 7. Spark in ggplot2
- 8. groupByKey in Spark-Dataset
- 9. Spark CompileException in Dataset.GroupByKey()
- 10. Spark: Typkonvertierung in Datenrahmen
- 11. Verständnis treeReduce() in Spark-
- 12. Batchgröße in Spark Streaming
- 13. Compounding in Spark-
- 14. saveAsTextFile Methode in Spark
- 15. java.io.FileNotFoundException in Spark-
- 16. Speicherbezogene Variablen in Spark-
- 17. Relationale Transformationen in Spark
- 18. Fallanweisungen in Spark
- 19. Datenerweiterung in Spark (Scala)
- 20. Geschichtete Stichprobe in Spark
- 21. Datenfilterung in Spark
- 22. 'Kartenseite' Aggregation in Spark
- 23. spark Datenquelle IN Unterabfrage
- 24. elastic4s in Spark-applicaiton
- 25. NullPointerException in SQLContext.read() Spark
- 26. Datenverteilung in Apache Spark
- 27. Shuffling in Spark
- 28. Filter Stoppwörter in Spark
- 29. gzip Unterstützung in Spark
- 30. Verschachtelte "Layouts" in Spark?