Hallo Ich lese eine Sequenz-Datei mit Json-Format Datensatz, beim Lesen der Json-Datensatz Konvertierung in Dataframe verursachen Datenschief Problem, wie Sie Formular Spark UI Screenshot sehen können . Wie vermeidet man dieses Datenschiefproblem?In Spark 1.6, wie Datenschief Problem zu vermeiden und gleichmäßig verteilen die Daten
val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text])
val df = sqlCntxt.read.json(src)
261 Abgeschlossene Aufgaben
Metric Min 25th Percentile Median 75th Percentile Max
Duration 47 ms 0.1 s 5 s 25 s **1.0 min**
GC Time 0 ms 0 ms 0 ms 0.1 s 0.7 s
Input Size/ Records 438.0 B/1 1013.0 B /2 1776.0 B/ 12 128.2 MB/277608 **128.5 MB/1162416**
Shuffle Write size/Records 240.0 B/1 446.0 B /1 509.0 B/1 622.0 B /1 **2.3 KB /1**
Code, den Sie gepostet haben, würde nicht checken und kompilieren. – user8371915