Ich bin finetuning
mit Caffe
auf einem Bilddatensatz auf einem Tesla K40
. Unter Verwendung eines batch size=47
, solver_type=SGD
, base_lr=0.001
, lr_policy="step"
, momentum=0.9
, gamma=0.1
, die training loss
ab und test accuracy
geht von 2%-50%
in 100
Iterationen, die ziemlich gut ist.RMSprop, Adam, AdaDelta Testgenauigkeit verbessert nicht mit Caffe
Bei Verwendung anderer Optimisern wie RMSPROP
, ADAM
und ADADELTA
, die training loss
sogar fast gleich bleibt und keine Verbesserung der test accuracy
nach 1000
Iterationen.
Für RMSPROP
habe ich die entsprechenden Parameter wie erwähnt here geändert.
Für ADAM
, ich habe die entsprechenden Parameter geändert, wie erwähnt here
Für ADADELTA
, ich habe die entsprechenden Parameter geändert, wie erwähnt here
Kann mir bitte jemand sagen, was ich falsch mache?
Ich habe festgestellt, dass man niedrigere Lernraten mit Lösern als SGD verwenden sollte. Howeber, ich weiß nicht genau warum. – pir
Wie viel senken Sie die Lernrate im Vergleich zu SGD? – VeilEclipse
Wenn ich dieselbe Lernrate wie bei SGD verwende, divergiert der RMSProp-Algorithmus, während er konvergiert (mit einem etwas niedrigeren acc als mein gut abgestimmter SGD) mit einer Lernrate, die 1/3 des Originals ist. Es könnte jedoch sehr problemspezifisch sein. – pir