2017-02-02 4 views
2

Ich habe die Python CNTK Tutorials von Microsft für Version 2 Beta 9.0 durchlaufen. Ich habe keine gute Dokumentation mit Beispielen empfohlener Werte gefunden, die an die verschiedenen Lernenden weitergegeben werden können. Ich konnte die folgenden Lernenden erhalten die Arbeit am CNTK 103: Teil B - Feed-Forward-Netz mit MNIST toturial:Beispiele für CNTK Lerner

lr_per_minibatch=learning_rate_schedule(0.2, UnitType.minibatch) 
    trainer = Trainer(z, ce, pe, sgd(z.parameters, lr=lr_per_minibatch)) 

    lr_per_minibatch=learning_rate_schedule(0.2, UnitType.minibatch) 
    trainer = Trainer(z, ce, pe, adagrad(z.parameters, lr=lr_per_minibatch)) 

    lr_per_minibatch=learning_rate_schedule(0.05, UnitType.minibatch) 
    trainer = Trainer(z, ce, pe, adam_sgd(z.parameters, lr=lr_per_minibatch, momentum=momentum_as_time_constant_schedule(700))) 

    lr_per_minibatch=learning_rate_schedule(0.2, UnitType.minibatch) 
    trainer = Trainer(z, ce, pe, nesterov(z.parameters, lr=lr_per_minibatch, momentum=momentum_as_time_constant_schedule(700))) 

    lr_per_minibatch=learning_rate_schedule(0.1, UnitType.minibatch) 
    trainer = Trainer(z, ce, pe, rmsprop(z.parameters, lr=lr_per_minibatch, gamma=0.90, inc=0.03, dec=0.03, max=0.1, min=0.1)) 

Diese Arbeit, aber hat jemand gute Beispiele für die empfohlenen Werte der Parameter, die jeder Trainer erhält?

Antwort

1

Für die aktuellen Lernenden hängen die besten Parameter von den Daten und dem Problem ab, das Sie lösen. Daher ist es sehr schwierig, gute Empfehlungen zu geben. Ein typischer Ratschlag ist, dass wenn eine Lernrate funktioniert, alle kleineren Lernraten funktionieren, aber Sie müssen länger laufen (d. H. Mehr Sweeps über die Daten machen).

+0

Haben Sie spezielle Empfehlungen für die Lernrate und das Momentum, während Sie den adam_sgd-Optimierer verwenden? –

+0

Nein, aber ich arbeite an einem Trainer, der keine Abstimmungsparameter hat. –

+0

Das klingt großartig. Ich würde etwas anderes empfehlen. Ich habe einen Hintergrund in der CFD-Finite-Elemente-Analyse. Manchmal war es nützlich, Berechnungen mit einem Modell oder einem Solver zu beginnen, die am Anfang schneller konvergierten; und dann halbwegs durch die Simulation, um zu einem anderen zu wechseln, der für die späteren Stadien der Simulation besser oder genauer war. –