Antwort

4

Es ist wegen der Aktivierung. Während der Weitergabe in Vorwärtsrichtung müssen Sie nur die letzte Aktivierungs- schicht speichern, sodass die Speichernutzung unabhängig von der Tiefe ist. Um Gradienten zu berechnen, müssen Sie Aktivierungen für alle Ebenen speichern, sodass die Speicherkosten mit der Netzwerktiefe zunehmen.

enter image description here

2

Die Speicherprobleme in Backpropagation Schritt können entstehen, weil:

Jede Backpropagation Schritt dauert etwa zweimal den Speicher und Rechenzeit als der Vorwärtspropagation Schritt.

Aus dieser video entnommen, die auch ein schönes Diagramm hat, das es erklärt.

Verwandte Themen