2017-04-23 6 views

Antwort

1

Was ist ein Problem ist es nicht in den Markov-Ketten genug zu verbrennen, um hoch energetische Bereiche im Trainingssatz zu unterdrücken, die weit von den anfänglichen Werten entfernt sind. Dies ist typisch unter Verwendung von CD (1) oder irgendeiner kontrastiven Divergenz niedriger Ordnung. Das heißt, diese Methoden initialisieren typischerweise immer Gewichte weit von lokalen Optima, in denen nicht vortrainierte Netze stecken bleiben. RBMs werden auch mit simuliertem Annealing trainiert, so dass sie eher mehr Parameterraum erkunden.

Ich empfehle Ihnen auch, das Papier zu lesen Verständnis von tiefem Lernen erfordert Umdenken Generalisierung von Zhang et al. Es zeigt im Grunde, wie diese Netzwerke die Wahrscheinlichkeitsverteilungen praktisch vollständig speichern und trotzdem verallgemeinern können.

Verwandte Themen