Ich möchte Kmeans Etiketten für tun, damit ich später durch die Etiketten gruppieren kann.Kmeans - Gruppe von
Wie wähle ich die Spalten aus, in denen kmeans ausgeführt werden soll?
val clusterThis = scaledDF.select($"id",$"setting1",$"setting2",$"setting3")
// dataset description lists six operation modes
val operatingModes = 6
// Cluster the data into two classes using KMeans
val numClusters = operatingModes
val numIterations = 20
import sqlContext.implicits._
val clusters = KMeans.train(clusterThis.rdd, numClusters, numIterations)
clusters.predict(clusterThis)
//... join back on id
Verwenden Sie 'ML' oder' MLLib'? –
Ich könnte jedes verwenden, wenn es verfügbar ist, denke ich, das oben verwendet rdd/MLLib – oluies
Ah ML hat ein großes Beispiel https://spark.apache.org/docs/latest/ml-clustering.html – oluies