2016-08-09 1 views
1

Derzeit unterstützt die Python-API noch keine Klassenklassifizierung in Spark, wird aber zukünftig so aussehen, wie auf der Spark-Seite 1 beschrieben.Logistische Regressionsklassifikation mit Python-API

Gibt es ein Veröffentlichungsdatum oder irgendeine Chance, es mit Python auszuführen, das Multi-Klasse mit logistischer Regression implementiert? Ich weiß es mit Scala, aber ich würde es gerne mit Python laufen lassen. Vielen Dank.

Antwort

3

scikit-learns LogisticRegression bietet einen multi_class Parameter. Aus der Dokumentation:

Die Option für mehrere Klassen kann entweder 'ovr' oder 'multinomial' sein. Wenn die Option gewählt ist 'ovr', dann ist ein binäres Problem für jedes Etikett geeignet. Sonst ist der minimierte Verlust die multinomiale Verlustanpassung über die gesamte Wahrscheinlichkeitsverteilung. Funktioniert nur für den 'lbfgs' Solver.

Daher scheint multi_class='ovr' die richtige Wahl für Sie zu sein.

Für weitere Informationen: see this link


Hinzugefügt:

Gemäß der pyspark Dokumentation, können Sie Multi-Klasse Regression ihre API tun. Mit der Klasse pyspark.mllib.classification.LogisticRegressionWithLBFGS erhalten Sie den optionalen Parameter numClasses für die Mehrklassenklassifizierung.

+0

In scikit-lernen und scala api hat auch LogisticRegression mit Multi-Klasse, nach meinem Verständnis Frage ist * wird dies in PySpark API für Python-Entwickler hinzugefügt werden? * –

+1

siehe bearbeitet –

+0

Ich habe Ihren Vorschlag seit ich versucht bin auch in einem solchen Problem stecken, können Sie bitte überprüfen Sie die Frage auf [Data Science Stackexchange] (http://datascience.stackexchange.com/questions/13673/logistic-Regression-als-Multiclass-Classification-use-pyspark-and-issues Ich hoffe, dass Sie mein Problem lösen werden. –

Verwandte Themen