0

Also, ich weiß, Sie Daten für eine logistische Regression in dieser Form zur Verfügung stellen können, dass in R:Können Sie Zählungen in der sklearn logistischen Regressionseingabe verwenden?

model <- glm(cbind(count_1, count_0) ~ [features] ..., family = 'binomial')

Gibt es eine Möglichkeit etwas wie cbind(count_1, count_0) mit sklearn.linear_model.LogisticRegression zu tun? Oder muss ich eigentlich alle diese doppelten Zeilen bereitstellen? (Meine Funktionen sind kategorisch, so dass es eine Menge Redundanz geben würde.)

Antwort

0

Wenn sie kategorisch sind - sollten Sie eine binarisierte Version davon bereitstellen. Ich weiß nicht, wie dieser Code in R funktioniert, aber du solltest dein kategorisches Feature immer in Binärform bringen. Weil Sie betonen müssen, dass jeder Wert Ihres Merkmals nicht mit einem anderen zusammenhängt, dh für das Merkmal "blood_type" mit möglichen Werten 1,2,3,4 muss Ihr Klassifikator lernen, dass 2 nicht mit 3 verbunden ist und 4 nicht bezogen auf 1 in irgendeiner Hinsicht. Dies wird durch Binarisierung erreicht.

Wenn Sie nach der Binarisierung zu viele Funktionen haben, können Sie die Dimensionalität des binarisierten Datasets durch FeatureHasher oder anspruchsvollere Methoden wie PCA reduzieren.

+0

Vielleicht war meine Frage unklar. Ich weiß, wie man eine Dummy-Matrix macht. Ich habe gefragt, wie man Zeilen mit Indikatorvariablen 1 und 0 nicht einsendet, sondern über alle identischen Zeilen summiert und (80 1, 10, 0) anstatt 90 Zeilen mit allen gleichen Features einsendet. – Erin

+0

@Erin, Hmm, immer noch verstehe ich nicht was du meinst. Vielleicht möchten Sie Sparse-Matrix verwenden? Mit "row" meinen Sie eine separate Probe Ihres Datensatzes? –

+0

Ich dachte Sparsity bezog sich auf die Merkmale, nicht das Ergebnis. Ich habe einen Weg gefunden, dies mit statsmodels anstelle von sklearn [hier] zu tun (http://statsmodels.sourceforge.net/devel/examples/notebooks/generated/glm.html). – Erin

Verwandte Themen