-3

Hallo Ich lese eine Sequenz-Datei mit Json-Format Datensatz, beim Lesen der Json-Datensatz Konvertierung in Dataframe verursachen Datenschief Problem, wie Sie Formular Spark UI Screenshot sehen können . Wie vermeidet man dieses Datenschiefproblem?In Spark 1.6, wie Datenschief Problem zu vermeiden und gleichmäßig verteilen die Daten

val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text]) 
val df = sqlCntxt.read.json(src) 

261 Abgeschlossene Aufgaben

Metric Min 25th Percentile Median 75th Percentile Max 
Duration 47 ms 0.1 s 5 s 25 s **1.0 min** 
GC Time 0 ms 0 ms 0 ms 0.1 s 0.7 s 
Input Size/ Records 438.0 B/1 1013.0 B /2 1776.0 B/ 12 128.2 MB/277608 **128.5 MB/1162416** 
Shuffle Write size/Records 240.0 B/1 446.0 B /1 509.0 B/1 622.0 B /1 **2.3 KB /1** 
+0

Code, den Sie gepostet haben, würde nicht checken und kompilieren. – user8371915

Antwort

0

Es kann keine Daten Skew sein, wenn Sie nicht eine Operation auszuführen verbinden. Sieht so aus, als ob Sie gerade versuchen, die JSON-Datei zu lesen.

Beim Versuch, einem ungewöhnlich großen Dataset mit einem sehr kleinen Dataset beizutreten oder wenn die Daten basierend auf Ihrer Verknüpfungsbedingung ungleichmäßig verteilt sind, tritt ein verzerrtes Datenproblem auf.

Verwandte Themen