Ich versuche, für zwei Datenrahmen (DF1 und DF2) in PySpark (ähnlich this), einen benutzerdefinierten verbinden mit dem Code zu erstellen, die wie folgt aussehen:Pyspark Datenrahmen Join UDF mit
my_join_udf = udf(lambda x, y: isJoin(x, y), BooleanType())
my_join_df = df1.join(df2, my_join_udf(df1.col_a, df2.col_b))
Die Fehlermeldung ich erhalte ist:
java.lang.RuntimeException: Invalid PythonUDF PythonUDF#<lambda>(col_a#17,col_b#0), requires attributes from more than one child
gibt es eine Möglichkeit, eine PySpark UDF zu schreiben, die Spalten aus zwei separaten Datenrahmen verarbeiten kann?