Wir haben zwei Datenrahmen df1
und df2
und ausführen Transformationen auf df2. Nachdem alle Transformationen auf df2 durchgeführt wurden, müssen wir das df1 in df2 anhängen. Dafür verwenden wir die Funktion unionAll.DAG Scheduler Wiederholen der Verarbeitungsstufen bei der Verwendung von UnionAll
val v_asciiFileWithHeader = v_header.unionAll(vr_dataframeAsciiFile)
Aber nach unionAll
, wenn wir seine DAG drucken, seine über alle Bearbeitungsschritte wieder, aufgrund derer die gesamte Verarbeitung zweimal fertig sind zu wiederholen, wenn eine Aktion aufgerufen wird.
Wenn wir die DF2 sind persistierende vor unionAll
Anwendung, dann werden alle Verarbeitungsstufen werden nicht wiederholt.
Als Referenz haben die DAG für die Datenrahmen vor unionAll
, angebracht nach UnionAll(without persisting df2)
nach unionAll(with persisting df2)
Also, warum sich wiederholende sind Verarbeitungsstufen, wenn unionAll
auf unpersisted Datenrahmen angewendet wird.
Funken Version - 1.6.1 Scala Version - 2.10.6
Does Verarbeitungsteil von ‚DF2‘ schließen jede Aktion oder nur Transformationen? – code
@code früher hatte es nur Transformationen. Aber für persistieren haben wir eine Aktion heißt hinzugefügt df2.count –
früher auch df2 Transformationen zweimal ausgeführt wurden? – code