ich den folgenden Code bin mit einem Clustermodell zu erstellen, dann jeden Datensatz auf bestimmte Cluster klassifizieren:pyspark: append/Merge PythonRDD zu einem pyspark Datenrahmen
from pyspark.mllib.clustering import KMeans
from pyspark.mllib.linalg import Vectors
spark_df = sqlContext.createDataFrame(pandas_df)
rdd = spark_df.rdd.map(lambda data: Vectors.dense([float(c) for c in data]))
model = KMeans.train(rdd, 2, maxIterations=10, initializationMode="random")
result = model.predict(red)
Wie anhängen ich das vorhergesagte Ergebnis zurück an die spark_df als zusätzliche Spalte? Vielen Dank!
Warum nicht 'ml' an erster Stelle verwenden? – zero323
Ich konnte spark_df (Datenframe) nicht in Spark-Dataset konvertieren. Und wenn ich nur Datenrahmen mit ml verwende, wird es nicht funktionieren. Irgendwelche Vorschläge zum Konvertieren von Datenrahmen in Datensatz? Vielen Dank! – Edamame
Wenn ich ml: model = kmeans.fit (spark_df) verwende, habe ich Fehler: AnalysisException: u "kann' 'features' 'gegebene Eingabespalten nicht auflösen: [field_1, field_2, ... field10];" So scheint es mir, dass ich spark_df nicht direkt verwenden kann – Edamame