ich diese Python-Code haben, die lokal in einem Pandas Datenrahmen läuft Anwendung:UDF auf GroupedData in PySpark (mit funktionierenden Python Beispiel)
df_result = pd.DataFrame(df
.groupby('A')
.apply(lambda x: myFunction(zip(x.B, x.C), x.name))
Ich möchte laufen diese in PySpark, aber mit pyspark Umgang Probleme, .sql.group.GroupedData-Objekt.
Ich habe folgendes versucht:
sparkDF
.groupby('A')
.agg(myFunction(zip('B', 'C'), 'A'))
die
KeyError: 'A'
ich zurück nehme an, weil ‚A‘ ist nicht mehr eine Spalte und ich kann nicht das Äquivalent für x.name finden .
Und dann
sparkDF
.groupby('A')
.map(lambda row: Row(myFunction(zip('B', 'C'), 'A')))
.toDF()
aber erhalten folgende Fehlermeldung:
AttributeError: 'GroupedData' object has no attribute 'map'
Irgendwelche Vorschläge geschätzt werden würde wirklich!
Was ist 'myFunction' und was steckt in' sparkDF'? Bitte machen Sie Ihren Code reproduzierbar, indem Sie Beispieldatensatz, erwartete Ausgabe und spezifischen Code teilen. Bis dahin bleibt Ihre Frage zu weit gefasst. – mtoto