关于python：Keras中Adam优化器的Decay参数

Decay parameter of Adam optimizer in Keras

我认为Adam优化器的设计可以自动调整学习速度。
但是有一个选项可以明确提及Keras中Adam参数选项的衰减。
我想澄清一下衰减对Keras中Adam优化器的影响。
如果我们使用衰减编译模型，例如在lr = 0.001上说0.01，然后拟合运行50个纪元的模型，那么学习率是否在每个纪元后降低了0.01倍？

有什么方法可以指定学习率仅在运行一定时期后才衰减？

在pytorch中有一个不同的实现，称为AdamW，在标准keras库中不存在。
这是否与如上所述在每个纪元之后改变衰减相同？

感谢您的回复。

根据源代码，decay根据

调整每个iterations lr

1	lr = lr * (1. / (1. + decay * iterations)) # simplified

请参见下图。这是与时代无关的。 iterations在每次批量匹配时增加1(例如每次调用train_on_batch或model.fit(x)中x中的多少个批次-通常是len(x) // batch_size批次)。

要实现您所描述的内容，可以使用如下所示的回调：

1
2
3
4
5
6
7
8
9

from keras.callbacks import LearningRateScheduler
def decay_schedule(epoch, lr):
# decay by 0.1 every 5 epochs; use `% 1` to decay after each epoch
if (epoch % 5 == 0) and (epoch != 0):
lr = lr * 0.1
return lr

lr_scheduler = LearningRateScheduler(decay_schedule)
model.fit(x, y, epochs=50, callbacks=[lr_scheduler])

LearningRateScheduler将一个函数作为参数，并且在每个纪元开始时，该纪元和lr都由.fit馈入该函数。然后，它根据该函数更新lr-因此在下一个时期，该函数将被馈给更新的lr。

我还有Keras AdamW。我也有Keras实现AdamW，NadamW和SGDW。

说明：第一次调用.fit()会调用on_epoch_begin和epoch = 0-如果我们不希望lr立即衰减，则应在decay_schedule中添加一个epoch != 0校验。然后，epoch表示已经经过了多少个时期-因此，当epoch = 5时，将应用衰减。