Ist Datensatz # persist() eine Terminaloperation?

Speichert Funken tatsächlich die Dataset, wenn org.apache.spark.sql.Dataset#persist() aufgerufen wird? Oder es wird träge zwischengespeichert, wenn eine Terminaloperation (wie count) an einer Dataset aufgerufen wird.Ist Datensatz # persist() eine Terminaloperation?

Quelle

2017-03-01 vatsal mevada

Da alle Caching-Operationen in Spark Dataset.persist ist faul und markiert nur gegebenes Objekt für die Zwischenspeicherung, wenn es jemals ausgewertet wird.

Der Hauptunterschied zu RDDs ist, dass die Auswertung viel schwieriger zu begründen ist. Siehe verwandte Diskussion auf der Entwicklerliste: Will .count() always trigger an evaluation of each row?

Quelle

2017-03-01 15:01:02 user6910411

Ist Datensatz # persist() eine Terminaloperation?

Antwort

Verwandte Themen