NAS 学习笔记(十六)- NoisyDARTS

  |     |   本文总阅读量:

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  本文分享一篇小米 2019 年关于 NAS 的论文 [1],文中提出了 NoisyDARTS 算法,它主要优化了原来 DARTS 中 skip-connect 过多带来性下降的问题,主要的方法就是添加噪声。

Motivation

   这篇文章要解决的问题主要是 DARTS 在搜索过程中出现的 skip-connect 过多的问题,这对模型稳定性有较大影响。之前小米在他们的另外一篇论文 Fair-DARTS 中已经提出了一个解决这个问题的方法,将 softmax 换成 sigmoid 使每种操作有自己的权重,这样鼓励不同的操作之间相互合作。华为在 P-DARTS 中也提出了一种方法,对 skip-connet 加正则(dropout 和限制最大 skip-connect 的个数)。
   本文提出了一个新的方法,既然 skip connection 存在不公平优势,那么对其注入噪声即可干扰其优势,抑制其过度发挥,从而解决skip connection 富集现象。

NoisyDARTS

  其实 NoisyDARTS 的思想非常简单,实现起来几乎只要给原来的 DARTS 代码中添加一行即可,主要思想就是:

\[ \mathcal{L}=g(y), \quad y=f\left(\alpha^{s k i p}\right) \cdot(x+\tilde{x}) \]

  就是给 skip-connect 的输入添加一个噪音 \(\tilde{x}\),这个 \(\tilde{x}\) 需要满足的条件是它要很小,这样就可以达到如下估计:

\[ y^{\star} \approx f(\alpha) \cdot x \quad \text { when } \quad \tilde{x} \ll x \]   需要注意的是,后向传播时噪音也要加入计算:

\[ \frac{\partial \mathcal{L}}{\partial \alpha^{s k i p}}=\frac{\partial \mathcal{L}}{\partial y} \frac{\partial y}{\partial \alpha^{s k i p}}=\frac{\partial \mathcal{L}}{\partial y} \frac{\partial f\left(\alpha^{s k i p}\right)}{\partial \alpha^{s k i p}}(x+\tilde{x}) \]

  为什么要这样呢?因为加入噪声会为梯度更新带来不确定性,因此选择噪声的原则首先要保持梯度的更新是有效的。我们先将它的梯度的期望做一个分解:

\[ \mathbb{E}\left[\nabla_{s k i p}\right]=\mathbb{E}\left[\frac{\partial \mathcal{L}}{\partial y} \frac{\partial f\left(\alpha^{s k i p}\right)}{\partial \alpha^{s k i p}}(x+\tilde{x})\right] \approx \frac{\partial \mathcal{L}}{\partial y^{\star}} \frac{\partial f\left(\alpha^{s k i p}\right)}{\partial \alpha^{s k i p}}(\mathbb{E}[x]+\mathbb{E}[\tilde{x}]) \]

  因此 NoisyDARTS 提出,应该加注一种无偏的并且方差较小的噪声,这样便可以使 \(\mathbb{E}[\tilde{x}] = 0\)。   因此 DARTS 原来的每个 mixed op 的计算便变成了这样:

\[ \bar{o}_{i, j}(x)=\sum_{k=1}^{M-1} f\left(\alpha_{o^{k}}\right) o^{k}(x)+f\left(\alpha_{o^{s k i p}}\right) o^{s k i p}(x+\tilde{x}) \]

  作者在论文里使用的噪声是 \(\mu = 0\)\(\sigma = \lambda \cdot std(x)\) 的高斯分布,实验中 \(\lambda = 0.2\) 的效果最好。

Conclusion

  NoisyDARTS 通过对 skip-connect 中加入噪声(无偏小方差高斯噪声),极大的限制了原本 skip-connect 的不公平竞争问题,解决了 DARTS 中 skip-connect 富集和模型化后性能损失的问题。

Refer

  • [1] X. Chu, B. Zhang, and X. Li, “Noisy Differentiable Architecture Search,” May 2020.

相关内容


坚持原创技术分享,您的支持将鼓励我继续创作,π(3.14)元就够啦!



文章目录
  1. 1. 引言
  2. 2. Motivation
  3. 3. NoisyDARTS
  4. 4. Conclusion
  5. 5. Refer
  6. 6. 相关内容
您是第 位小伙伴 | 本站总访问量 | 已经写了 605.5k 字啦

载入天数...载入时分秒...