Ich erhalte immer diesen Fehler: AnalysisException: u "kann" substring (l, 1, -1) 'aufgrund des Datentyps Mismatch nicht auflösen: Argument 1 erfordert jedoch (Zeichenfolge oder Binär) Typ' l 'ist vom Array-Typ; "Funke kann LabeledPoint nicht erstellen
Ziemlich verwirrt, da l [0] eine Zeichenkette ist und mit arg 1 übereinstimmt. Datenrahmen hat nur eine Spalte mit dem Namen 'value', die eine durch Kommas getrennte Zeichenkette ist. Und ich möchte diesen ursprünglichen Datenrahmen in einen anderen Datenrahmen des Objekts LabeledPoint konvertieren, wobei das erste Element "Label" und die anderen "Features" sein sollen.
from pyspark.mllib.regression import LabeledPoint
def parse_points(dataframe):
df1=df.select(split(dataframe.value,',').alias('l'))
u_label_point=udf(LabeledPoint)
df2=df1.select(u_label_point(col('l')[0],col('l')[1:-1]))
return df2
parsed_points_df = parse_points(raw_data_df)
Sie Ihre Frage verbessern sollte, kann ich es nicht verstehen. –