Spark verfügt nun über zwei maschinelle Lernbibliotheken - Spark MLlib und Spark ML. Sie überschneiden sich etwas in dem, was implementiert wird, aber wie ich es verstehe (als eine Person, die neu im gesamten Spark-Ökosystem ist), ist Spark ML der Weg zu gehen und MLlib ist immer noch hauptsächlich aus Gründen der Abwärtskompatibilität.PCA in Spark MLlib und Spark ML
Meine Frage ist sehr konkret und im Zusammenhang mit PCA. In MLlib Implementierung scheint
spark.mllib PCA eine Begrenzung der Anzahl der Spalten werden unterstützt für hoch-und-dünne Matrizen in zeilenorientierten Format und alle Vektoren gespeichert.
Auch, wenn Sie auf den Code Beispiel Java sehen gibt es diese auch
Die Anzahl der Spalten sollte klein sein, zum Beispiel weniger als 1000.
Auf der anderen Seite Wenn Sie sich die Dokumentation ML ansehen, werden keine Einschränkungen erwähnt.
Also meine Frage ist - gibt es diese Einschränkung auch in Spark ML? Und wenn ja, warum die Einschränkung und gibt es einen Workaround, um diese Implementierung verwenden zu können, selbst wenn die Anzahl der Spalten groß ist?
Interessante Frage. Ich habe viele andere Inkonsistenzen in der mllib-Dokumentation gesehen. – Rob