Ich versuche, zwei Datenrahmen zu verbinden.Wie füge ich zwei Datenrahmen in Spark Hadoop ohne gemeinsamen Schlüssel zusammen?
Daten: Datenrahmen [_1: Bigint, _2: vector]
Cluster: Datenrahmen [Cluster: Bigint]
result = data.join(broadcast(cluster))
Das Merkwürdige ist, dass alle die Ausführenden auf dem Verbindungsschritt versagen .
Ich habe keine Ahnung, was ich tun könnte.
Die Datendatei ist 2,8 GB auf HDFS und die Cluster-Daten nur 5 MB. Die Dateien werden mit Parquet gelesen.
Konnten Sie den genauen Fehler posten, den Sie erhalten? –
Der genaue Fehler war, dass die Executoren versagten. Es konnte kein eindeutiges gefunden werden. Ich kenne die Antwort jetzt :) – blpasd