ADAM(Adaptive Moment Estimation)对参数向量 的更新式是这样的:\textbf{v}\leftarrow \beta\_1\textbf{v}+\left(1-\beta\_1\right)\nabla f\left(\textbf{w}\right)\\\\textbf{s}\leftarrow\beta\_2\textbf{s}+\left(1-\beta\_2\right)\nabla f\left(\textbf{w}\right) \odot \nabla f\left(\textbf{w}\right)\\\\textbf{w}\leftarrow \textbf{w}-\eta \frac{\textbf{v}}{\sqrt{\textbf{s}}}表示“赋值”,将右边计算出来的值赋给左边。我们先看第一个更新式,它用一个位于 区间的参数 乘当前 向量(数乘),再用 乘损失函数 在当前参数 处的梯度 。迭代一开始时,可将 设为零向量。 一般取接近 1 的值,比如 0.9 。这其实是以滑动平均将 在迭代过程中每个参数向量 位置处的梯度积累到...