Regularization wendet eine Strafe an, um die Größe der Parameterwerte zu erhöhen, um overfitting zu reduzieren. Wenn Sie ein Modell wie ein logistisches Regressionsmodell trainieren, wählen Sie Parameter, die Ihnen die beste Anpassung an die Daten ermöglichen. Dies bedeutet, dass der Fehler zwischen dem, was das Modell für Ihre abhängige Variable vorhersagt, und Ihren Daten im Vergleich zu dem, was Ihre abhängige Variable tatsächlich ist, minimiert wird.
Das Problem kommt, wenn Sie viele Parameter (viele unabhängige Variablen), aber nicht zu viele Daten haben. In diesem Fall passt das Modell die Parameterwerte oft an Idiosynkrasien in Ihren Daten an - das bedeutet, dass es nahezu perfekt zu Ihren Daten passt. Da diese Eigenheiten jedoch nicht in zukünftigen Daten auftauchen, die Sie sehen, sagt Ihr Modell schlecht voraus.
Um dies zu lösen, sowie den Fehler zu minimieren, wie bereits besprochen, fügen Sie hinzu, was minimiert wird und minimieren Sie auch eine Funktion, die große Werte der Parameter bestraft. Am häufigsten ist die Funktion λΣθ j 2, die eine Konstante λ-fache der Summe der quadrierten Parameterwerte & thgr; j . Je größer λ ist, desto unwahrscheinlicher ist es, dass die Parameter in ihrer Größe erhöht werden, nur um kleine Störungen in den Daten auszugleichen. In Ihrem Fall spezifizieren Sie jedoch, anstatt λ anzugeben, C = 1/λ.
Haben Sie gefragt, Google? Ich tat. [Dieser Link] (http://compbio.soe.ucsc.edu/html_format_papers/hughkrogh96/node6.html) war die erste –
@RichardScriven Ich tat, und fand es sehr kompliziert und hoffte, dass jemand würde freundlich genug, um es auf einfache Englisch für mich brechen! Danke für den Link :) – user3427495
Kein Problem. Obwohl es mehr wie schwierige Mathematik als einfaches Englisch aussieht. :) –