Ich bin mit Funken 1,3PySpark und Broadcast Beispiel beitreten
# Read from text file, parse it and then do some basic filtering to get data1
data1.registerTempTable('data1')
# Read from text file, parse it and then do some basic filtering to get data1
data2.registerTempTable('data2')
# Perform join
data_joined = data1.join(data2, data1.id == data2.id);
Meine Daten sind ziemlich schief und Daten2 (wenige KB) < < data1 (10s von GB) und die Leistung ist sehr schlecht. Ich habe über Broadcast-Join gelesen, bin mir aber nicht sicher, wie ich dasselbe mit der Python-API machen kann.
'pyspark.sql.functions.broadcast' erschien zuerst in 1,6, nach Arbeits zu [die Dokumente] (https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html#module-pypark.sql.functions) –
@NicholasWhite In PySpark Wrapper wurde hinzugefügt 1.6 aber Scala Methode ist seit 1.5 verfügbar, so dass Sie es auch in 1.5 arbeiten können. – zero323