Wie kann 'vergessene Tore' wichtige Informationen nicht aus dem Zellenzustand in einem LSTM entfernen?

Zunächst entschuldige ich mich, wenn dies nicht für Stack-Überlauf geeignet ist. Dies ist keine Code-bezogene Frage, sondern eine Theoriefrage.Wie kann 'vergessene Tore' wichtige Informationen nicht aus dem Zellenzustand in einem LSTM entfernen?

Das ist mir nicht ganz klar. Nehmen wir an, Sie haben eine massive Passage, von der Ihr LSTM lernen soll, wie stellt es sicher, dass es Details aus dem ersten Absatz nicht entfernt?

Quelle

2017-06-19 madsthaks

Im BPTT-Algorithmus, wenn das Wort keine wichtige Rolle bei der Bestimmung der endgültigen Ausgabe spielte, wird der Gradient klein sein und das Gewicht wird kleiner werden, während das Training läuft. Es ist automatisch, da LSTM-Mechanismus es bestimmt.

Für Ihr Anliegen, können Sie LSTM missverstehen, LSTM kann das Verschwinden des Gradienten Problem lösen, weil es die continually multiply zu continually plus konvertieren. Einfach gesagt, hi = a1 * h1 + a2 * h2 + a3 * h3 + ..., ist die letztgenannte Ausgabe eine Funktion jedes vorherigen Ausgangs, so dass der Gradient erhalten bleibt. Einzelheiten zur Gradientenakkumulationstheorie finden Sie unter An Empirical Exploration of Recurrent Network Architectures. Darüber hinaus, heute Aufmerksamkeit Mechanismus ist weit verbreitet und ist besser geeignet für Sie brauchen, können Sie sehen Neural Machine Translation By Jointly Learning To Align and Translate.

Quelle

2017-06-19 08:55:29 danche

Das verstehe ich. Wenn nun ein Wort/Satz in den ersten paar Sätzen erscheint und für die nächsten 3-4 Absätze wenig Bedeutung hat, wird es wahrscheinlich vergessen werden. Was ist, wenn es am Ende 5-6 Absätze später wichtig ist? Es wird nicht in der Lage sein, die richtige Verbindung herzustellen, da es dieses wichtige Detail bereits vergessen hat. – madsthaks

@madsthaks können Sie meine Bearbeitung sehen. :) – danche

Ich glaube, this paper wird helfen. Es erklärt den Backpropagation-Algorithmus.

Beachten Sie auch, dass für LSTMs diese Prozessdurchgänge mehrere LSTM-Blöcke in einer sequentiellen und parallelen Weise verwendet werden. Und zusätzlich, neuronale Netze sind black boxes: wir wissen nicht, wie die Arbeit intern, und sie machen, welche Details selbst wichtig sind.

Quelle

2017-06-19 08:04:52

Ich sehe, ich habe nicht mehrere LSTM-Blöcke in Betracht gezogen. Also würde ich annehmen, dass einige Blöcke sich auf die Details in der Passage konzentrieren, während andere sich auf Details konzentrieren werden, die relativ kürzlich geschehen sind? – madsthaks

Wie kann 'vergessene Tore' wichtige Informationen nicht aus dem Zellenzustand in einem LSTM entfernen?

Antwort

Verwandte Themen