Ich habe am maschinellen Lernen KNN (K Nearest Neighbors) -Algorithmus mit Python und Python Scikit-lernen Machine Learning API gearbeitet.Scikit-lernen KNN (K Nearest Neighbours) parallelisieren mit Apache Spark
Ich habe Beispielcode mit Spielzeug-Dataset einfach mit Python und Scikit-lernen erstellt und mein KNN funktioniert gut. Aber wie wir wissen, ist die Scikit-learn-API so aufgebaut, dass sie auf einer einzelnen Maschine funktioniert, und sobald ich meine Spielzeugdaten durch Millionen von Datensätzen ersetzen werde, wird dies meine Ausgabeleistung verringern.
Ich habe nach vielen Optionen, Hilfe und Codebeispielen gesucht, die meine maschinelle Lernverarbeitung parallel unter Verwendung von Spark mit Scikit-learn API verteilen, aber ich fand keine richtige Lösung und Beispiele.
Können Sie mir bitte mitteilen, wie ich meine Leistung mit den K Nearest Neighbors von Apache Spark und Scikit-learn API erreichen und steigern kann?
Vielen Dank im Voraus!
Ihre Frage ist sehr breit. Ich denke jedoch, dass Ihnen dieser Beitrag helfen kann [Automatische Skalierung von Sci-Kits mit Apache Spark] (https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-apache-spark .html) –
Hallo @AlbertoBonsanto, ich habe den Link, den du gegeben hast, durchgelaufen, aber ich finde nicht, wie ich mein Scikit-KNN mit Spark skalieren soll. Ich habe auch ein Drittanbieter-Paket für Scikit-learn auf Sparks offizieller Website heruntergeladen, aber ich bin mir nicht sicher, ob es um die API geht und finde nicht viel Hilfe mit einem richtigen Beispiel. – Nishan