2017-04-07 3 views
1

In der Statistik führen wir kaum eine Normalisierung durch. Bei Bedarf zentrieren wir Kovariaten, normalisieren aber nicht. Beim maschinellen Lernen ist insbesondere die Deep-Learning-Feature-Normalisierung vorrangig. Warum ist es wichtig in einigen Anwendungen, aber nicht wichtig in anderen.Feature Normalisierung

Antwort

2

Für die maschinellen Lernverfahren ist die Skalierung wichtig, da sie die Berechnung der Zielfunktion beeinflussen wird.

Zum Beispiel verwenden viele Algorithmen die euklidische Distanz, um eine Klassifizierung vorzunehmen. Wenn Sie ein Merkmal haben, das viel größere Werte als die anderen Merkmale hat, wird es die Entfernung dominieren und somit werden die Vorhersagen nur von diesem einzigen Merkmal beeinflusst .

Die Skalierung unterstützt auch den Gradientenabstieg (Methode, die in vielen Algorithmen zur Minimierung der Fehlerfunktion verwendet wird), die viel schneller konvergiert. SVMs trainieren auch schneller mit normalisierten Werten.

Zusammenfassend hilft die Verwendung aller Werte auf derselben Skala bei der Berechnung. Meine Vermutung, warum es beim maschinellen Lernen so wichtig und bei Statistiken nicht so wichtig ist, ist, dass Maschinenlernalgorithmen in der Regel Schleifen haben, die oft wiederholen. Bei jeder Iteration beeinflussen die Werte "out of scale" mehr und mehr und dominieren das Modell. Auf der anderen Seite haben statistische Methoden diese Schleifen nicht, so dass die Skalierung sie nicht so stark beeinflusst.