Taskdatenlokalität NO_PREF. Wann wird es verwendet?

Nach doc Spark gibt es 5 Stufen der Daten Lokalität:Taskdatenlokalität NO_PREF. Wann wird es verwendet?

PROCESS_LOCAL
NODE_LOCAL
NO_PREF
RACK_LOCAL
ANY

Alle von ihnen ziemlich klar sind zu mir auseinander NO_PREF (von Spark doc: "Daten werden gleich schnell von anyw zugegriffen hier und hat keine Lokalitätspräferenz ")

Was ist der Fall, NO_PREF sollte verwendet werden?

Quelle

2016-04-14 loba76

Eine der RDD-Eigenschaften ist bevorzugte Standorte. Wenn beispielsweise die RDD-Quelle eine HDFS-Datei ist, sollte der bevorzugte Speicherort Datenknoten enthalten, auf denen sich Daten physisch befinden. Wenn es jedoch keinen Unterschied gibt, woher Daten stammen oder Spark die bevorzugten Speicherorte nicht ermitteln kann, erstellt Spark während der Verarbeitung solcher RDDs Tasks, deren Datenstandort auf NO_PREF gesetzt ist.

Quelle

2016-04-15 11:30:36

Taskdatenlokalität NO_PREF. Wann wird es verwendet?

Antwort

Verwandte Themen