2016-04-11 11 views
1

Kürzlich wurde mir gesagt, dass die Etiketten der Regressionsdaten für ein besseres Ergebnis auch normalisiert werden sollten, aber ich bin ziemlich zweifelhaft. Ich habe nie versucht, die Etiketten sowohl in der Regression als auch in der Klassifikation zu normalisieren, weshalb ich nicht weiß, ob dieser Zustand wahr ist oder nicht. Können Sie mir bitte (mathematisch oder in Erfahrung) eine klare Erklärung zu diesem Problem geben?Vorverarbeitungsdaten: Normalisieren von Datenbeschriftungen in der Regression?

Vielen Dank. Jede Hilfe wäre willkommen.

+1

Woher hast du das gesagt? Ich habe es vorher noch nie gehört und es macht keinen intuitiven Sinn.Die Labels selbst werden in keiner mir bekannten Regressionsrechnung verwendet. –

+0

@JamieBull sagte mir ein Senior von mir. Ich finde es sehr absurd, darum möchte ich mich kümmern. Auch möchte ich eine solide Erklärung haben, um ihm zu sagen, warum es unnötig ist, es durchzuführen. –

Antwort

1

Wenn Sie "normalisieren" Etiketten sagen, ist es nicht klar, was Sie meinen (d. H., Ob Sie das in einem statistischen Sinne oder etwas anderes meinen). Können Sie bitte ein Beispiel geben?

Auf Herstellung von Etiketten einheitlich in der Datenanalyse Wenn Sie Etiketten vernähen Verwendung mit der text() Funktion versuchen, könnten Sie die abbreviate() Funktion versuchen, sie zu verkürzen, oder die format() Funktion sie besser auszurichten.

Die Funktion pretty() funktioniert gut zum Runden von Etiketten auf Zeichenachsen. Zum Beispiel ruft die Basisfunktion hist() zum Zeichnen von Histogrammen Sturges oder andere Algorithmen auf und verwendet dann pretty(), um eine gute Behältergröße zu wählen. Die Funktion scale() standardisiert Werte, indem sie ihren Mittelwert subtrahiert und durch die Standardabweichung dividiert, die in einigen Kreisen als Normalisierung bezeichnet wird.

Zu den Gründen für die Skalierung in Regression (als Reaktion auf einen Kommentar von Questor). Angenommen, Sie rücken Y auf Kovariaten X1, X2, ... ab. Die Gründe für die Skalierung von Kovariaten Xk hängen vom Kontext ab. Es kann einen Vergleich der Koeffizienten (Effektgrößen) jeder Kovariate ermöglichen. Es kann helfen, numerische Genauigkeit zu gewährleisten (diese Tage sind normalerweise kein Problem, es sei denn, die Kovariaten auf sehr unterschiedlichen Maßstäben und/oder Daten sind groß). Für ein lesbares Intro siehe Psychosomatic medicine editors' guide. Für eine mathematisch intensive Diskussion siehe Sylvain Sardy's guide.

Insbesondere in der Bayesschen Regression ist eine Neuskalierung ratsam, um eine Konvergenz der MCMC-Schätzung zu gewährleisten; z.B. siehe this discussion.

+0

Vielen Dank für Ihren Kommentar. Normalisierung bedeutet hier, dass Daten unter Verwendung beliebiger Skalierungstechniken skaliert werden (Bereich 0-1 oder Subtrahieren des Mittelwerts und Dividieren durch Standardabweichung). Und ich brauche eine Erklärung, warum ich dies nicht für Datenbezeichnungen in der Regression tun sollte und nicht für bestimmte Funktionen. –

+0

Zum Beispiel können die Datenbeschriftungen des Regressionsproblems Gleitkommazahlen im Bereich von 1-5 sein. Meine Frage ist, ob ich sie in den Bereich von 0-1 skalieren soll oder nicht. –

+0

Ah. Skalierung von Daten "Etiketten" ist unorthodoxe Terminologie. Allerdings ** Skalierungsdaten ** ist mehr Standard ... Ich habe meine Antwort bearbeitet, um Links aufzunehmen. – slouchy

0

Sie meinen, Funktionen nicht Etiketten.

Es ist nicht notwendig, Ihre Funktionen für die Regression oder Klassifizierung zu normalisieren, auch wenn es in einigen Fällen ein Trick ist, der Ihnen helfen kann, schneller zu konvergieren. Vielleicht möchten Sie überprüfen this post.

Nach meiner Erfahrung ist es bei der Verwendung eines einfachen Modells wie einer linearen Regression mit nur wenigen Variablen vorzuziehen, die Merkmale beizubehalten, wie sie sind (ohne Normalisierung), da das Modell besser interpretierbar ist.

+1

Vielen Dank für Ihre Antwort. Ich meine wirklich Data LABELS, keine Features, da die Feature-Normalisierung bereits eine vertraute Technik ist und es bereits viele Artikel darüber gibt. –

+2

Ok, tut mir leid. Ich habe noch nie von so etwas gehört und sehe keinen Sinn darin, Etiketten zu normalisieren. Der folgende Post erklärt, warum es keine Auswirkungen hat: http://stats.stackexchange.com/questions/111467/is-it-necessary-to-scale-the-target-value-in-addition-to-scaling- features-for-re. Ich hoffe es hilft. –

+0

Vielen Dank für Ihre Hilfe. Es ist wirklich die Erklärung, die ich brauche. Ich habe vergessen, dass Label in der Regression Zielvariable genannt wird. Deshalb konnte ich diesen Posten nicht finden. Nochmals vielen Dank und einen schönen Tag! –

0

Es kann sein, dass Sie meinen, dass Sie Maßstab Ihre Etiketten sollten. Der Grund dafür ist, dass die Konvergenz schneller ist und Sie keine numerische Instabilität erhalten.

Wenn Ihre Labels beispielsweise im Bereich (1000, 1000000) liegen und die Gewichtungen nahe Null initialisiert werden, wäre ein mse-Verlust so groß, dass Sie wahrscheinlich NaN-Fehler erhalten.

Eine ähnliche Diskussion finden Sie unter https://datascience.stackexchange.com/q/22776/38707.