Backpropagation mit python/numpy - Berechnung der Ableitung von Gewichts- und Bias-Matrizen im neuronalen Netzwerk

Ich entwickle ein neuronales Netzwerkmodell in Python und verwende verschiedene Ressourcen, um alle Teile zusammenzufügen. Alles funktioniert, aber ich habe Fragen zu Mathe. Das Modell hat eine variable Anzahl von versteckten Layern, verwendet Reluktivierung für alle versteckten Layer außer dem letzten, der Sigmoid verwendet.Backpropagation mit python/numpy - Berechnung der Ableitung von Gewichts- und Bias-Matrizen im neuronalen Netzwerk

Die Kostenfunktion ist:

def calc_cost(AL, Y): 
    m = Y.shape[1] 
    cost = (-1/m) * np.sum((Y * np.log(AL)) - ((1 - Y) * np.log(1 - AL))) 
    return cost

wo AL Wahrscheinlichkeits Prädiktion nach der letzten sigmoid Aktivierung angelegt ist.

In Teil meiner Umsetzung Backpropagation, verwende ich die folgenden

def linear_backward_step(dZ, A_prev, W, b): 
    m = A_prev.shape[1] 

    dW = (1/m) * np.dot(dZ, A_prev.T) 
    db = (1/m) * np.sum(dZ, axis=1, keepdims=True) 
    dA_prev = np.dot(W.T, dZ) 

    return dA_prev, dW, db

wo (zu irgendeiner gegebenen Schicht, die die Ableitung der Kosten in Bezug auf einen linearen Schritt der Vorwärtsausbreitung) dZ gegeben, das Derivat der Gewichtsmatrix W der Schicht, dem Vorspannungsvektor b und dem Derivat der Aktivierung der vorherigen Schicht dA_prev werden jeweils berechnet.

Der vordere Teil, die zu diesem Schritt ergänzen ist, ist diese Gleichung: Z = np.dot(W, A_prev) + b

Meine Frage ist: in dW und db Berechnung, warum ist es von 1/m zu multiplizieren notwendig? Ich habe versucht, dies mit Kalkül Regeln zu unterscheiden, aber ich bin mir nicht sicher, wie dieser Begriff passt.

Jede Hilfe ist willkommen!

Quelle

2017-12-30 Murcielago

Dies hängt tatsächlich von Ihrer Verlustfunktion und wenn Sie Ihre Gewichte nach jeder Probe aktualisieren oder wenn Sie Batch-weise aktualisieren. Werfen Sie einen Blick auf die folgende Altmode Allzweck- Kostenfunktion:

Quelle: MSE Cost Function for Training Neural Network

Hier, sagen wir mal y^_i Ihre Netzwerke ausgegeben und y_i ist Ihr Zielwert. y^_i ist die Ausgabe Ihres Netzes.

Wenn Sie dies für y^_i unterscheiden, werden Sie nie die 1/n oder die Summe loswerden, weil die Ableitung einer Summe die Summe der Derivate ist. Da 1/n ein Faktor zur Summe ist, wirst du das auch nicht loswerden können. Denken Sie nun darüber nach, was der Standard-Gradienten-Abstieg tatsächlich macht. Es aktualisiert Ihre Gewichte nach der Berechnung des Durchschnitts über alle n Proben. Ein stochastischer Gradientenabfall kann verwendet werden, um nach jedem Sample zu aktualisieren, so dass Sie es nicht zu mitteln brauchen. Batch-Updates berechnen den Durchschnittswert für jede Charge. Was ich in Ihrem Fall denke, ist 1/m, wobei m die Losgröße ist.

Quelle

2017-12-30 08:03:18

Ihre Gradientenberechnung scheint falsch zu sein. Sie multiplizieren es nicht mit 1/m. Auch Ihre Berechnung von m scheint falsch zu sein.Es sollte für weitere Informationen

# note it's not A_prev.shape[1] 
m = A_prev.shape[0]

Auch die Definition in Ihrer calc_cost Funktion

# should not be Y.shape[1] 
m = Y.shape[0]

Sie können beziehen Sie das folgende Beispiel sein.

Neural Network Case Study

Quelle

2017-12-30 09:27:02 kmario23

Backpropagation mit python/numpy - Berechnung der Ableitung von Gewichts- und Bias-Matrizen im neuronalen Netzwerk

Antwort

Verwandte Themen