Gibt es funktionierende Implementierungen von KMeans mit Cosinus-Distanz, die auf einen von Tf-IDF verarbeiteten Datenrahmen in Apache Spark angewendet werden?Gibt es Implementierungen von Kmeans mit Cosinus-Abstand in Apache Spark/PySpark?
Spark, natürlich hat Euklidische Distanzimplementierung in der ml-Bibliothek, aber nicht so für andere Entfernungsmaße.
Wie Sie die Kosinus-Metrik in Kmeans Funktion einfügen? – Charleslmh
Da die Entfernungsmetrikfunktion eine private Methode in spark kmean ist, können keine anderen Metriken (Kosinus für diese Angelegenheit) eingesteckt werden. Und fwiw, es ist kein Problem mit der Entfernungsmetrik, aber ein Fehler in der kmean Implementierung selbst, experimentierte ich mit Beide Distanzmetriken (Kosinus sowie euklidisch) in meiner eigenen benutzerdefinierten Implementierung (entwickelt auf Spark) und erhalten bessere Qualität Cluster im Gegensatz zu Funken kmean. – rajanim