2016-04-14 12 views
2

Nach doc Spark gibt es 5 Stufen der Daten Lokalität:Taskdatenlokalität NO_PREF. Wann wird es verwendet?

  • PROCESS_LOCAL
  • NODE_LOCAL
  • NO_PREF
  • RACK_LOCAL
  • ANY

Alle von ihnen ziemlich klar sind zu mir auseinander NO_PREF (von Spark doc: "Daten werden gleich schnell von anyw zugegriffen hier und hat keine Lokalitätspräferenz ")

Was ist der Fall, NO_PREF sollte verwendet werden?

Antwort

1

Eine der RDD-Eigenschaften ist bevorzugte Standorte. Wenn beispielsweise die RDD-Quelle eine HDFS-Datei ist, sollte der bevorzugte Speicherort Datenknoten enthalten, auf denen sich Daten physisch befinden. Wenn es jedoch keinen Unterschied gibt, woher Daten stammen oder Spark die bevorzugten Speicherorte nicht ermitteln kann, erstellt Spark während der Verarbeitung solcher RDDs Tasks, deren Datenstandort auf NO_PREF gesetzt ist.

Verwandte Themen