2017-03-01 2 views

Antwort

2

Da alle Caching-Operationen in Spark Dataset.persist ist faul und markiert nur gegebenes Objekt für die Zwischenspeicherung, wenn es jemals ausgewertet wird.

Der Hauptunterschied zu RDDs ist, dass die Auswertung viel schwieriger zu begründen ist. Siehe verwandte Diskussion auf der Entwicklerliste: Will .count() always trigger an evaluation of each row?