Why do different methods for solving Xc=y in python give different solution when they should not?
, die numerische Ausgabe aufgrund Gleitpunkte zu haben scheint, Matrizen invertiert und Werte zu [-1,1]
beschränken, was ich neugierig bin jetzt Deshalb leidet tief Lernen nicht von Schwimmer oder numerische Genauigkeitsfehler, wenn der größte Teil des Trainings auf Daten mit Mittelwert 0 und Standard 1 basiert (ich gehe davon aus, dass die meisten Daten in diesem Bereich vorverarbeitet wurden), und ich denke, dass dies in etwa richtig sein muss hohe Auslastung der Batch-Normalisierung). Liegt es daran, dass tiefes Lernen nicht dadurch trainiert wird, dass ein Polynom zu einem sehr hohen Grad angehoben wird, oder warum ist tiefes Lernen normalerweise gut? Gibt es etwas Spezielles mit SGD oder ist die (populäre) Aktivierungsfunktion, relu, elu usw., nicht numerisch instabil (verglichen mit einem Polynom hohen Grades)? Oder vielleicht verhindert das GPU-Training die Gleitkommadarstellung alle zusammen? Oder warum ist Deep Learning Training numerisch stabil?