风暴-风暴娱乐-注册登录站

风暴注册

风暴资讯

更多
电话:400-123-4567
传真:+86-123-4567
邮箱:admin@youweb.com
地址:广东省广州市天河区88号

风暴资讯

当前位置: 首页 > 风暴资讯

更好的优化器?:LookAhead optimizer

浏览次数:94 发布时间:2024-05-26 09:56:47

这篇文章的方法还是比较好理解的,

三句话概括,

  1. 同步 slow 和 fast 参数(红线)
  2. 更新 fast 参数 k 步(绿线)
  3. 根据 fast 参数的更新方向,更新 slow 参数 1 步(蓝线)

如果进一步把 slow weights 的表达式展开,

这里的 \	heta_{t,k} 是 第 t 轮 fast weights 更新的第 k 步(也就是最后一步)。这个叫 Exponential Moving Average~(EMA),对后面理论证明会有一点用。(如果只是想了解这个算法,这个地方可以跳过)

fast weights 的更新就是正常的 SGD,你可以选择任何想用的优化器,当然包括 Adam。

上面说,fast weights 的更新,就是正常 SGD,所以用什么 learning rate 就不在本文的套路范围内了。但是 slow weight 的更新,方向我们知道了,就是跟随 fast weight 更新的方向 (\	heta_{t,k}-\	heta_{t,0})。就像这个图一样,

那他的 learning rate \\alpha 就是一个比较重要的待确定的值了。作者先是对一个简单的 quadratic problem 给出了 optimal 的解,

然后提出,其实一个固定的 \\alpha 也是可以达到差不多的收敛效果的。

在 Cifar 的实验中,

在 ImageNet 的实验中,

作为一篇讲优化器的文章,完备的实验自然是必不可少的。作者跑了 CIFAR,ImageNet,LSTM 还有 Transformer。具体的结果在论文中找到,基本上作者并没有 report 拔群的准确率,但是稳定性倒是强调不少。

这里想提一下其中一个小实验,

在 Epoch 65 的时候,这个时候网络的性能已经很不错了,稍微动一下 fast weight 可以看到,其实都是对网络的 test acc 是副作用(蓝色的线)。但是因为有 slow weights 的存在,能够把这种副作用拉回来。作者也是希望通过这幅图说明,Lookahead 一个最重要的卖点还是能够提高稳定性,然优化过程更加 robust。

平台注册入口