2017-11-13 3 views
-3

Ich habe den folgenden Datensatz unten gezeigt. Jeder Wert zwischen 500 & 900 wurde als A kategorisiert, während Werte zwischen 900 & ~ 1500 zwischen A und B gemischt wurden. Ich möchte die Wahrscheinlichkeit von A, B und C bei jedem Wert von x finden, wobei x meine unabhängige Variable ist und A, B, C sind meine abhängigen Variablen. Es scheint eine gute Lösung für multinomiale logistische Regression zu sein. Ich glaube, dass die Anzahl der Beobachtungen für jede abhängige Variable ausreichend ist. Wenn eine multinomiale logarithmische Regression angemessen ist, möchte ich Pythons scikit-learn-logistisches-Regressionsmodul verwenden, um meine Wahrscheinlichkeit von A, B und C bei jedem Wert von x zu erhalten, aber ich bin mir nicht sicher, wie ich das mit diesem Modul angehen soll.Ist die multinomiale logistische Regression für diesen Datensatz geeignet?

enter image description here

+0

Es sieht aus wie Sie haben, was eine Gemischverteilung genannt. A, B und C haben jeweils ihre eigenen Verteilungen, und was Sie beobachten, ist p (A) p (x | A) + p (B) p (x | B) + p (C) p (x | C). Typischerweise (nicht notwendigerweise) wendet man einen sogenannten Erwartungsmaximierungs (EM) -Algorithmus an, um die Mischgewichte p (A), p (B), p (C) und Parameter für p (x | A), p (x | B), p (x | C). Dies sind jedoch sehr allgemeine Kommentare und was Sie tun sollten, hängt stark von den Details Ihres Problems ab. Wahrscheinlich sollten Sie dies zu stats.stackexchange.com zur Diskussion bringen. –

Antwort

6

persönlich, es sieht aus wie ein alle richtigen Kandidaten für die logistische Regression, aber die Tatsache, dass er mit sich überlappenden 1-dimensionalen sieht es schwer in diese Teile zu trennen machen. Ich bin hauptsächlich hier, um den zweiten Teil Ihrer Frage zu beantworten, der so ziemlich auf jeden anderen Klassifikator innerhalb von scikit-learn verallgemeinert werden kann.

Ich empfehle den Abschnitt scikit-learn auf SGDClassifier zu betrachten, da es ein einfaches Beispiel direkt unter der Attributliste hat, aber stattdessen den SGDClassifier-Teil durch die LogisticRegression-Klasse ersetzt. http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

Hier ist auch die Dokumentation für Logistische Regression: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

Verwandte Themen