Nehmen wir an, ich habe eine DataFrame
in Spark und ich muss die Ergebnisse davon in zwei Datenbanken schreiben, wo man den ursprünglichen Datenrahmen speichert, aber der andere speichert eine leicht modifizierte Version (z. B. Tropfen einige Säulen). Da beide Operationen einige Zeit in Anspruch nehmen können, ist es möglich/ratsam, diese Operationen parallel auszuführen, oder führt dies zu Problemen, weil Spark parallel an demselben Objekt arbeitet?Paralleles Schreiben von demselben Datenrahmen in Spark
0
A
Antwort
0
import java.util.concurrent.Executors
import scala.concurrent._
implicit val ec = ExecutionContext.fromExecutor(Executors.newFixedThreadPool(10))
def write1(){
//your save statement for first dataframe
}
def write2(){
//your save statement for second dataframe
}
def writeAllTables() {
Future{ write1()}
Future{ write2()}
}
+0
Meine Frage ist, ob es Sinn macht, dies zu tun (nicht wie) oder ob ich in Nebenläufigkeitsprobleme stoßen würde. – Ian
Verwandte Themen
- 1. Schreiben Datenrahmen in Teradata-Tabelle von Spark
- 2. Spark Glättung von Datenrahmen
- 3. Spark-Streaming. Paralleles Lesen von Kafka führt zu wiederholten Daten
- 4. Spark-Datenrahmen von WrappedArray zu Datenrahmen [Vector]
- 5. Spark: Typkonvertierung in Datenrahmen
- 6. Spark Map Datenrahmen mit dem Datenrahmen Schema
- 7. Hinzufügen von Datenrahmen zur Liste in Spark
- 8. Aufteilen von Datenrahmen in Apache Spark
- 9. Schreiben von Spark zu DynamoDB
- 10. Paralleles Threading in Java
- 11. Verschwenkung Datenrahmen - Spark-SQL
- 12. Spark mehrere Datenrahmen speichert
- 13. Spark Datenrahmen Ausführung
- 14. Für Schleife Spark Datenrahmen
- 15. Paralleles Pipelining
- 16. Überschreiben Spark Datenrahmen Schema
- 17. Merge Zeilen aus demselben Datenrahmen
- 18. Spark: Schreiben in Avro-Datei
- 19. paralleles Rendering von mehreren QGraphicsView
- 20. Schreiben von Datenrahmen in Postgres-Datenbank
- 21. Wie Spark Spark Datenrahmen von Array-Spalte mit einem der Werte von anderen Datenrahmen/Set
- 22. Pandas zusammenführen Spalten in demselben Datenrahmen
- 23. Schreiben in Spark Avro fehlgeschlagen
- 24. Wie Spark Datenrahmen, um verschachtelten Datenrahmen konvertieren
- 25. bestimmte Zeile von Spark Datenrahmen erhalten
- 26. Spark - Group von HAVING mit Datenrahmen-Syntax?
- 27. Spark-Datenrahmen konvertiert Spalte Datentyp von String
- 28. Zusammenführen von Spalten in einem Datenrahmen mit demselben Namen
- 29. Spark Python CSV Schreiben
- 30. Hauptgewinde blockiert paralleles Gewinde?
Spark parallelisiert bereits Transformationen/Aktionen (also schreiben) und Sie können auch nicht parallelisiert 2 parallelisierte Transformationen/Aktionen. Das macht für den Scheduler keinen Sinn. – eliasah
Sie können scala future verwenden –