NAS 学习笔记(十)- Fair DARTS

  |     |   本文总阅读量:

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  本文继续分享一篇小米 2020 年在 ECCV 上关于 NAS 的论文 [1],文中提出了 Fair DARTS 算法,主要是为了解决 DARTS 中的两个缺陷,本文对它做简单的笔记。

Dark side of DARTS

  作者上来就提出了 DARTS 的两个问题:

  • 搜索过程中 skip connection 在优化后期出现过多
  • continuous 的 op 参数 discrete 后存在 gap

Performance Downfall Caused by Intractable Skip Connections

  第一个缺陷就是训练后期收敛后一个 cell 里 skip connection 的过多。并且作者认为本文认为 skip connection 过多出现有两个不可或缺的条件:exclusive competition(两个 node 之间只能选 1 个 op)和 unfair advantage(作者文中给出了定义,在优化过程中对 supernet 的 contribution 大于对最终 discrete 的网络 performance 的 contribution,即优化过程中虚报了,实际并没那么强)。skip connection和其他 op 形成了类似 residual 结构,在ResNet 中已经明确指出了跳跃连接在深层网络的训练过程中中起到了良好的梯度疏通效果,进而有效减缓了梯度消失现象。因此,在超网络的搜索训练过程中,skip connections可以借助其他操作的关系达到疏通效果,使得 skip connections 相较于其他操作存在不公平优势。

Non-negligible Discrepancy of Discretization

  这个缺陷就很好理解了,就是 continuous space 想要根据 softmax 值去 argmax 来 discrete 时,softmax 值并没有很强的区分度,就比如一组 op 的 softmax 值为 \([0.174, 0.170, 0.176, 0.112, 0.116, 0.132, 0.118]\),你很难受 0.176 的 op 就比 0.174 的 op 好。

Fair DARTS

Stepping out the Pitfalls of Skip Connections

  通过上面的叙述,我们知道要想解决 skip connection 带来的 collapse,只需要打破其中任意一个条件即可。Fair DARTS 基本使用采用打破 exclusive competition 这个策略,将 softmax 换成 sigmoid 函数,这样即使有 skip connection 的值饱和到 1,依然有可能有其他 op 的值饱和到 1,就形成了一个类似 multi-hot 的 approximation,给予每个 op 独立的结构化参数,多个 op 之间不会相互抑制。
  对于 unfair advantage,论文结尾给了一个加高斯随机噪声实验,仍能得到不错的结果,这也就孕育了后面的 Noise DARTS。

Resolve Discrepancy from Continuous Representation to Discrete Encoding

  为了减小 continuous 到 discrete 的 gap,作者添加了辅助的 0-1 损失,作者也给这个损失函数提出了三个条件:

  • It needs to have a global maximum at z = 0.5 (a fair starting point) and a global minimum at 0 and 1.
  • The gradient magnitude \(\frac{d f}{d z} \mid z \approx 0.5\) has to be adequately small to allow architectural weights to fluctuate, but large enough to attract z towards 0 or 1 when they are a bit far from 0.5.
  • It should be differentiable for backpropagation.

  即在公平条件下,我们得以将不同 op 的权重参数推向 0 或 1,扩大相对差异,即要么靠近 0 要么靠近 1,这样也就减少了 discrete 后的 gap了。很自然的,我们可以这样定义:

\[ L_{0-1}=-\frac{1}{N} \sum_{i}^{N}\left(\sigma\left(\alpha_{i}\right)-0.5\right)^{2} \]

  总的目标函数就为:

\[ \begin{aligned} &\min _{\alpha} \mathcal{L}_{v a l}\left(w^{*}(\alpha), \alpha\right)+w_{0-1} L_{0-1}\\ &\text { s.t. } w^{*}(\alpha)=\operatorname{argmin}_{w} \mathcal{L}_{\text {train}}(w, \alpha)\\ &\bar{o}_{i, j}(x)=\sum_{o \in \mathcal{O}} \sigma\left(\alpha_{o_{i, j}}\right) o(x) \end{aligned} \]

Experiments

  具体的实验数据这里就不说了,上一张论文中 Fair DARTS 解决 skip connection 占 dominate 和 exclusive 的 heat map 图,实验的效果就一目了然了:

Conclusion

  总的来说,Fair DARTS 提出的 DARTS 中 exclusive competition 和 unfair advantage 的缺陷还是非常有趣的,解决的方法也不难,是一篇很值得学习的论文。

Refer

相关内容


坚持原创技术分享,您的支持将鼓励我继续创作,π(3.14)元就够啦!



文章目录
  1. 1. 引言
  2. 2. Dark side of DARTS
    1. 2.1. Performance Downfall Caused by Intractable Skip Connections
    2. 2.2. Non-negligible Discrepancy of Discretization
  3. 3. Fair DARTS
    1. 3.1. Stepping out the Pitfalls of Skip Connections
    2. 3.2. Resolve Discrepancy from Continuous Representation to Discrete Encoding
  4. 4. Experiments
  5. 5. Conclusion
  6. 6. Refer
  7. 7. 相关内容
您是第 位小伙伴 | 本站总访问量 | 已经写了 680.3k 字啦

载入天数...载入时分秒...