






Adam优点:
1)实现简单,计算高效,对内存需求少
2)参数的更新不受梯度的伸缩变换影响
3)超参数具有很好的解释性,且通常无需调整或仅需很少的微调
4)更新的步长能够被限制在大致的范围内(初始学习率)
5)能自然地实现步长退火过程(自动调整学习率)
6) 很适合应用于大规模的数据及参数的场景
7)适用于不稳定目标函数
8)适用于梯度稀疏或梯度存在很大噪声的问题

参考:https://cloud.tencent.com/developer/article/1428819
https://blog.csdn.net/weixin_42398658/article/details/84525917