2016-08-19 6 views
0

Ich versuche eine Topologie für Apache Funken Cluster über verschiedene Standorte zu wählen. Hat Funke seine eigenen Fähigkeiten?Hat Apache Funke Geo-Bewusstsein?

Nehmen wir zum Beispiel einen Cluster mit Arbeitern in Oregon und Penang an.

Jetzt beim Einreichen einer Anwendung, die Daten von Oregon lädt verarbeitet es und speichert es zurück nach Oregon. Werden Oregon-Arbeiter bevorzugt (wenn sie frei sind)? Keine Dokumentation zu diesem Thema gefunden.

+1

Spark selbst ist nicht geo-bewusst. Das heißt nicht, dass Sie in Oregon und Penang Arbeiter haben und Aufgaben nur in Oregon aufstellen, da die Daten dort sind. Sie müssen Ihren Cluster so erstellen, dass ein bestimmter Job mit Workern mit minimaler Netzwerklatenz ausgeführt wird. –

Antwort

2

Wie hier beschrieben https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

Funke setzt auf Datenlokalität, auch bekannt als Datenplatzierung oder die Nähe zu Daten Quelle, die Spark-Jobs empfindlich auf, wo die Daten macht sich befindet. Es ist daher wichtig, dass Spark auf dem Hadoop YARN-Cluster ausgeführt wird, wenn die Daten von HDFS stammen. Das Datensystem selbst kann geo-bewusst sein, z.B. Cassandra: Does Spark use data locality?

Verwandte Themen