2017-06-19 1 views

Antwort

1

Im BPTT-Algorithmus, wenn das Wort keine wichtige Rolle bei der Bestimmung der endgültigen Ausgabe spielte, wird der Gradient klein sein und das Gewicht wird kleiner werden, während das Training läuft. Es ist automatisch, da LSTM-Mechanismus es bestimmt.

Für Ihr Anliegen, können Sie LSTM missverstehen, LSTM kann das Verschwinden des Gradienten Problem lösen, weil es die continually multiply zu continually plus konvertieren. Einfach gesagt, hi = a1 * h1 + a2 * h2 + a3 * h3 + ..., ist die letztgenannte Ausgabe eine Funktion jedes vorherigen Ausgangs, so dass der Gradient erhalten bleibt. Einzelheiten zur Gradientenakkumulationstheorie finden Sie unter An Empirical Exploration of Recurrent Network Architectures. Darüber hinaus, heute Aufmerksamkeit Mechanismus ist weit verbreitet und ist besser geeignet für Sie brauchen, können Sie sehen Neural Machine Translation By Jointly Learning To Align and Translate.

+0

Das verstehe ich. Wenn nun ein Wort/Satz in den ersten paar Sätzen erscheint und für die nächsten 3-4 Absätze wenig Bedeutung hat, wird es wahrscheinlich vergessen werden. Was ist, wenn es am Ende 5-6 Absätze später wichtig ist? Es wird nicht in der Lage sein, die richtige Verbindung herzustellen, da es dieses wichtige Detail bereits vergessen hat. – madsthaks

+0

@madsthaks können Sie meine Bearbeitung sehen. :) – danche

0

Ich glaube, this paper wird helfen. Es erklärt den Backpropagation-Algorithmus.

Beachten Sie auch, dass für LSTMs diese Prozessdurchgänge mehrere LSTM-Blöcke in einer sequentiellen und parallelen Weise verwendet werden. Und zusätzlich, neuronale Netze sind black boxes: wir wissen nicht, wie die Arbeit intern, und sie machen, welche Details selbst wichtig sind.

+0

Ich sehe, ich habe nicht mehrere LSTM-Blöcke in Betracht gezogen. Also würde ich annehmen, dass einige Blöcke sich auf die Details in der Passage konzentrieren, während andere sich auf Details konzentrieren werden, die relativ kürzlich geschehen sind? – madsthaks

Verwandte Themen