Ich versuche Sparks in Memory-Funktion zu verstehen. In diesem Prozess stieß ich auf Tachyon , die im Grunde in Speicherdatenschicht ist, die Fehlertoleranz ohne Replikation durch die Verwendung von Lineage-Systemen bietet und die Neuberechnung durch Check-Pointing der Datensätze reduziert. Nun, wo ist verwirrt, all diese Features sind auch erreichbar durch Spark Standard RDD s-System. Ich frage mich also, ob RDDs Tachyon hinter den Kulissen implementieren, um diese Funktionen zu implementieren? Wenn nicht, was ist Tachyon, wo all seine Arbeit mit Standard-RDDs erledigt werden kann. Oder mache ich einen Fehler in Bezug auf diese beiden? Eine ausführliche Erklärung oder ein Link zu einer wird eine große Hilfe sein. Vielen Dank.Wird Tachyon standardmäßig von den RDDs in Apache Spark implementiert?
6
A
Antwort
1
Was in dem Papier, das Sie verlinkt haben, nicht die Realität von Tachyon als Open-Source-Projekt widerspiegelt, Teile dieses Papiers existierten nur als Forschungsprototypen und wurden nie vollständig in Spark/Tachyon integriert.
Wenn Sie Daten an die Speicherposition OFF_HEAP
über rdd.persist(StorageLevel.OFF_HEAP)
persistieren, verwendet Tachyon diese Daten in Tachyon als Datei. Dadurch wird es aus dem Java-Heap entfernt, wodurch Spark mehr Arbeitsspeicher zur Verfügung stellt.
Die Lineage-Informationen werden derzeit nicht geschrieben. Wenn Ihre Daten zu groß sind, um in die konfigurierten Tachyon-Cluster zu passen, gehen die Speicherbereiche der RDD verloren und Ihre Spark-Jobs können fehlschlagen.
Verwandte Themen
- 1. Apache Spark RDD-Filter in zwei RDDs
- 2. Scalaz-Typklassen für Apache Spark-RDDs
- 3. Wie wiederhole ich RDDs in Apache Spark (Scala)
- 4. Umgang mit RDDs an einen bestimmten Mitarbeiter in Apache Spark
- 5. Wie RDDs in Spark Shell?
- 6. Spark RDDs - wie funktionieren sie?
- 7. Fusion Spark RDDs von schlechten JSON
- 8. Verketten von Datensätzen verschiedener RDDs in Apache Spark mit Hilfe von Scala
- 9. Führt ein Join von gemeinsam partitionierten RDDs zu einem Shuffle in Apache Spark?
- 10. Matrix Multiplikation in Apache Spark
- 11. Durchführen von Berechnungen mit zwei RDDs in Spark-
- 12. Berechnung der Canberra-Distanz mit Apache Spark
- 13. Apache Spark RDD-Persistenz nur, wenn Ausnahme ausgelöst wird
- 14. Verwenden von reduceByKey in Apache Spark (Scala)
- 15. Wie kann man die queueStream API in apache spark verstehen?
- 16. Vergleichen von zwei RDDs
- 17. Fallklassengleichheit in Apache Spark
- 18. Datenverteilung in Apache Spark
- 19. Geben von Argumenten in Apache Spark
- 20. Apache Spark: Union-Operation wird nicht durchgeführt
- 21. Wie implementiert man "Cross Join" in Spark?
- 22. Apache Spark-Implementierung
- 23. PowerShell HelpMessage wird standardmäßig in den Parametern
- 24. Ausgabe Dstream von Apache Spark in Python
- 25. Wie zwei RDDs in Spark mit Python verbinden?
- 26. Max Grenze für die Anzahl der RDDs in Spark
- 27. Apache Spark vs Apache Storm
- 28. Welche Funktion in Spark verwendet wird, um zwei RDDs durch Tasten zu kombinieren
- 29. Filter in Apache Spark nicht
- 30. Verwendung von R in Apache Spark
Vielen Dank Rob für die Beantwortung. Daher wird Tachyon standardmäßig in RDDs für eine Persistenzstufe verwendet, aber Tachyon implementiert nicht alle diese Funktionen, stattdessen implementieren RDDs all diese Funktionen. habe ich recht ? –
Das ist eine genaue Beschreibung, soweit ich es verstehe – RobV