NAS 学习笔记(十六)- NoisyDARTS

  |     |   本文总阅读量:

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  本文分享一篇小米 2019 年关于 NAS 的论文 [1],文中提出了 NoisyDARTS 算法,它主要优化了原来 DARTS 中 skip-connect 过多带来性下降的问题,主要的方法就是添加噪声。

Motivation

   这篇文章要解决的问题主要是 DARTS 在搜索过程中出现的 skip-connect 过多的问题,这对模型稳定性有较大影响。之前小米在他们的另外一篇论文 Fair-DARTS 中已经提出了一个解决这个问题的方法,将 softmax 换成 sigmoid 使每种操作有自己的权重,这样鼓励不同的操作之间相互合作。华为在 P-DARTS 中也提出了一种方法,对 skip-connet 加正则(dropout 和限制最大 skip-connect 的个数)。
   本文提出了一个新的方法,既然skip connection 存在不公平优势,那么对其注入噪声即可干扰其优势,抑制其过度发挥,从而解决skip connection 富集现象。

NoisyDARTS

  其实 NoisyDARTS 的思想非常简单,实现起来几乎只要给原来的 DARTS 代码中添加一行即可,主要思想就是:

\[ \mathcal{L}=g(y), \quad y=f\left(\alpha^{s k i p}\right) \cdot(x+\tilde{x}) \]

  就是给 skip-connect 的输入添加一个噪音 \(\tilde{x}\),这个 \(\tilde{x}\) 需要满足的条件是它要很小,这样就可以达到如下估计:

\[ y^{\star} \approx f(\alpha) \cdot x \quad \text { when } \quad \tilde{x} \ll x \]   需要注意的是,后向传播时噪音也要加入计算:

\[ \frac{\partial \mathcal{L}}{\partial \alpha^{s k i p}}=\frac{\partial \mathcal{L}}{\partial y} \frac{\partial y}{\partial \alpha^{s k i p}}=\frac{\partial \mathcal{L}}{\partial y} \frac{\partial f\left(\alpha^{s k i p}\right)}{\partial \alpha^{s k i p}}(x+\tilde{x}) \]

  为什么要这样呢?因为加入噪声会为梯度更新带来不确定性,因此选择噪声的原则首先要保持梯度的更新是有效的。我们先将它的梯度的期望做一个分解:

\[ \mathbb{E}\left[\nabla_{s k i p}\right]=\mathbb{E}\left[\frac{\partial \mathcal{L}}{\partial y} \frac{\partial f\left(\alpha^{s k i p}\right)}{\partial \alpha^{s k i p}}(x+\tilde{x})\right] \approx \frac{\partial \mathcal{L}}{\partial y^{\star}} \frac{\partial f\left(\alpha^{s k i p}\right)}{\partial \alpha^{s k i p}}(\mathbb{E}[x]+\mathbb{E}[\tilde{x}]) \]

  因此 NoisyDARTS 提出,应该加注一种无偏的并且方差较小的噪声,这样便可以使 \(\mathbb{E}[\tilde{x}] = 0\)。   因此 DARTS 原来的每个 mixed op 的计算便变成了这样:

\[ \bar{o}_{i, j}(x)=\sum_{k=1}^{M-1} f\left(\alpha_{o^{k}}\right) o^{k}(x)+f\left(\alpha_{o^{s k i p}}\right) o^{s k i p}(x+\tilde{x}) \]

  作者在论文里使用的噪声是 \(\mu = 0\)\(\sigma = \lambda \cdot std(x)\) 的高斯分布,实验中 \(\lambda = 0.2\) 的效果最好。

Conclusion

  NoisyDARTS 通过对 skip-connect 中加入噪声(无偏小方差高斯噪声),极大的限制了原本 skip-connect 的不公平竞争问题,解决了 DARTS 中 skip-connect 富集和模型化后性能损失的问题。

Refer

  • [1] X. Chu, B. Zhang, and X. Li, “Noisy Differentiable Architecture Search,” May 2020.

坚持原创技术分享,您的支持将鼓励我继续创作,π(3.14)元就够啦!



文章目录
  1. 1. 引言
  2. 2. Motivation
  3. 3. NoisyDARTS
  4. 4. Conclusion
  5. 5. Refer
您是第 位小伙伴 | 本站总访问量 | 已经写了 605.3k 字啦

载入天数...载入时分秒...