Wir haben einige Code geschrieben, um Datasets über GraphX in Scala mit Spark 1.6.1 und Scala 2.10 verbinden und verknüpfen.Spark GraphX Spark-Shell vs Spark-Submit Leistungsunterschiede
Wenn wir diesen Code in Spark-Shell ausführen, wird es in 30 Minuten mit 10 Executoren, 10g Speicher & 5 CPU pro Executor ausführen.
Wenn wir dies in einem fetten Krug mit Spark-Submit ausführen, dann fällt der Prozess mit nicht genügend Speicherfehler und dauert eineinhalb Stunden, um zu diesem Punkt zu gelangen.
Hat jemand irgendwelche Ideen, was könnte das verursachen?
Weiß jemand, wie SparkContext und SQLContext in der Shell eingerichtet sind und ob wir etwas beim Einrichten unserer eigenen Kontexte verpasst haben, was dazu führen könnte, dass das Problem mit der Spark-Submit so schlecht abläuft?
Wir haben die Einstellungen überprüft sie identisch sind und selbst wenn wir die Funken einreichen mehr Ressourcen als die Schale noch in Probleme läuft geben. Wenn die Daten verzerrt sind, sollte dies auch Auswirkungen auf die Shell haben und auf die gleiche Weise erfolgen. –
@AndyLong Können Sie Parameterwerte in Spark Web UI überprüfen? –
Vielleicht sind einige Einstellungen überschrieben, deshalb möchte ich Informationen von Web-UI überprüfen –