Ich möchte Apache Funke mit GPU integrieren, aber Spark funktioniert auf Java, während GPU CUDA/OpenCL verwendet, so wie wir sie zusammenführen.Wie funktioniert Apache Spark auf der GPU?
Antwort
Es gibt ein paar Bibliotheken, die mit diesem Dilemma hilft.
Die Databricks arbeiten in einer Lösung für Spark mit TensorFlow, mit der Sie die GPUs Ihres Clusters oder Ihrer Maschine verwenden können.
Wenn Sie mehr darüber finden möchten, gibt es eine Präsentation von Spark Summit Europe 2016 Diese Präsentation wird ein wenig zeigen, wie TensorFrames funktioniert.
Andere dies ist ein Beitrag über TensoFrames in DataBricks Blog.
Weitere Codeinformationen finden Sie unter Git of Tensorframes.
Es hängt davon ab, was Sie tun möchten. Wenn Sie Ihre Berechnungen mit GPUs unter Verwendung von Spark verteilen möchten, müssen Sie nicht unbedingt Java verwenden. Sie könnten python (pyspark) mit numba verwenden, die ein cuda-Modul haben.
Zum Beispiel können Sie diesen Code anwenden, wenn Sie möchten, dass Ihre Worker-Knoten die Operation (hier gpu_function) für jeden Block Ihrer RDD berechnen.
rdd = rdd.mapPartition(gpu_function)
mit:
def gpu_function(x):
...
input = f(x)
output = ...
gpu_cuda[grid_size,block_size](input,output)
return output
und:
from numba import cuda
@cuda.jit("(float32[:],float32[:])")
def gpu_cuda(input,output)
output = g(input)
ich Ihnen raten, einen Blick auf die Slide URL zu nehmen: https://fr.slideshare.net/continuumio/gpu-computing-with-apache-spark-and-python, schieben specificly 34.
Sie brauchen nur Numba und Cuda Treiber installieren auf jedem Arbeiterknoten.
- 1. Apache Spark: distinct funktioniert nicht?
- 2. Apache Spark vs Apache Spark 2
- 3. Apache Spark mit Pip-Installation funktioniert nicht
- 4. Apache Spark Query mit HiveContext funktioniert nicht
- 5. Apache Spark auf EC2 "Killed"
- 6. Apache Spark - Wie langsam Aufgaben
- 7. Erkennt Apache Mesos GPU-Kerne?
- 8. Messzeit auf der GPU
- 9. Fallklassengleichheit in Apache Spark
- 10. ausgegeben, wie in Apache Spark
- 11. Repartition mit Apache Spark
- 12. Apache Spark vs Apache Storm
- 13. Anwendung in Apache Spark
- 14. K-Means auf Zeitreihendaten mit Apache Spark
- 15. Datenverteilung in Apache Spark
- 16. Apache Spark-Implementierung
- 17. Apache Spark App-Workflow
- 18. Apache Spark auf Oozie: Bereitstellung zusätzlicher Konfigurationsdatei?
- 19. Apache Spark Rdd persistent
- 20. Apache Spark Korrelation läuft nur auf Treiber
- 21. Anwenden von Transformationen auf Dataset Apache Spark
- 22. Bluemix Apache Spark Metrics
- 23. Apache Spark RDD-Workflow
- 24. Shader auf der GPU ausführen
- 25. Apache Zeppelin auf Spark Cluster und YARN
- 26. Apache Spark-Build-Fehler
- 27. Lesen der JSON-Datei mit Apache Spark
- 28. Apache Spark - Korrelation berechnen
- 29. Apache Spark - datediff für Datenrahmen?
- 30. Apache Spark Performance Problem