Also, ich weiß, Sie Daten für eine logistische Regression in dieser Form zur Verfügung stellen können, dass in R:Können Sie Zählungen in der sklearn logistischen Regressionseingabe verwenden?
model <- glm(cbind(count_1, count_0) ~ [features] ..., family = 'binomial')
Gibt es eine Möglichkeit etwas wie cbind(count_1, count_0)
mit sklearn.linear_model.LogisticRegression zu tun? Oder muss ich eigentlich alle diese doppelten Zeilen bereitstellen? (Meine Funktionen sind kategorisch, so dass es eine Menge Redundanz geben würde.)
Vielleicht war meine Frage unklar. Ich weiß, wie man eine Dummy-Matrix macht. Ich habe gefragt, wie man Zeilen mit Indikatorvariablen 1 und 0 nicht einsendet, sondern über alle identischen Zeilen summiert und (80 1, 10, 0) anstatt 90 Zeilen mit allen gleichen Features einsendet. – Erin
@Erin, Hmm, immer noch verstehe ich nicht was du meinst. Vielleicht möchten Sie Sparse-Matrix verwenden? Mit "row" meinen Sie eine separate Probe Ihres Datensatzes? –
Ich dachte Sparsity bezog sich auf die Merkmale, nicht das Ergebnis. Ich habe einen Weg gefunden, dies mit statsmodels anstelle von sklearn [hier] zu tun (http://statsmodels.sourceforge.net/devel/examples/notebooks/generated/glm.html). – Erin