Adam优点

1)实现简单,计算高效,对内存需求少

2)参数的更新不受梯度的伸缩变换影响

3)超参数具有很好的解释性,且通常无需调整或仅需很少的微调

4)更新的步长能够被限制在大致的范围内(初始学习率)

5)能自然地实现步长退火过程(自动调整学习率)

6) 很适合应用于大规模的数据及参数的场景

7)适用于不稳定目标函数

8)适用于梯度稀疏或梯度存在很大噪声的问题

参考:https://cloud.tencent.com/developer/article/1428819

https://blog.csdn.net/weixin_42398658/article/details/84525917

https://www.jianshu.com/p/aebcaf8af76e