全站搜索
首页_赢咖4星辉-官方注册地址
首页_赢咖4星辉-官方注册地址
赢咖42021 年机器学习什么风向?谷歌大神 Quoc Le:把注意力放在 MLP 上
作者:管理员    发布于:2021-05-23 13:48    文字:【】【】【

  赢咖4注册在机器学习领域里有一句俗话:「Attention is all you need」,通过注意力机制,谷歌提出的 Transformer 模型引领了 NLP 领域的大幅度进化,进而影响了 CV 领域,甚至连论文标题本身也变成了一个梗,被其后的研究者们不断重新演绎。

  技术潮流总有变化的时候——到了 2021 年,风向似乎变成了多层感知机(MLP)。近日,谷歌大脑 Quoc Le 等人的一项研究对注意力层的必要性提出了质疑,并提出了一种具有空间门控单元的无注意力网络架构 gMLP,在图像分类和掩码语言建模任务上均实现了媲美 Transformer 的性能表现。

  接着,清华大学图形学实验室 Jittor 团队提出了一种新的注意机制「External Attention」,只用两个级联的线性层和归一化层就可以取代现有流行的学习架构中的「Self-attention」。同一时期,清华大学软件学院丁贵广团队提出的结合重参数化技术的 MLP 也取得了非常不错的效果。

  Facebook 也于近日提出了一种用于图像分类的纯 MLP 架构,该架构受 ViT 的启发,但更加简单:不采用任何形式的注意力机制,仅仅包含线性层与 GELU 非线性激活函数。

  MLP → CNN → Transformer → MLP 似乎已经成为一种大势所趋。谷歌大脑首席科学家、AutoML 鼻祖 Quoc Le 团队也将研究目光转向了 MLP。在最新的一项研究中,该团队提出了一种仅基于空间门控 MLP 的无注意力网络架构 gMLP,并展示了该架构在一些重要的语言和视觉应用中可以媲美 Transformer。

  他们还将 gMLP 应用于 BERT 的掩码语言建模(MLM)任务,发现 gMLP 在预训练阶段最小化困惑度的效果与 Transformer 一样好。该研究的实验表明,困惑度仅与模型的容量有关,对注意力的存在并不敏感。随着容量的增加,研究者观察到,gMLP 的预训练和微调表现的提升与 Transformer 一样快。

  gMLP 的有效性,视觉任务上自注意力和 NLP 中注意力机制的 case-dependent 不再具有优势,所有这些都令研究者对多个领域中注意力的必要性提出了质疑。

  总的来说,该研究的实验结果表明,自注意力并不是扩展 ML 模型的必要因素。随着数据和算力的增加,gMLP 等具有简单空间交互机制的模型具备媲美 Transformer 的强大性能,并且可以移除自注意力或大幅减弱它的作用。

  具有空间门控单元(Spatial Gating Unit, SGU)的 gMLP 架构示意图如下所示,该模型由堆叠的 L 块(具有相同的结构和大小)组成。

  为了实现跨 token 的交互,s ( · ) 层必须要包含空间维度上的收缩变换。最简单的方法是线性投影:

  研究者在没有额外数据的 ImageNet 数据集上将 gMLP 应用于图像分类任务,以衡量它在计算机视觉领域的性能。他们将三个 gMLP 变体模型(gMLP-Ti、gMLP-S 和 gMLP-B)与其他基于原始 Transformer 的模型进行了对比,包括 ViT、DeiT 以及其他几个有代表性的卷积网络。

  同上,但在 softmax 内部移除了所有与内容有关的项,并仅保留相对位置偏差。

  在下表 3 中,他们将这些基准 BERT 模型与类似大小、不同版本的 gMLP 进行了对比。需要注意,表格最后一行 Multiplicative, Split 即上文方法部分描述的空间门控单元(SGU)。可以看到,SGU 的困惑度低于其他变体,具有 SGU 的 gMLP 得到了与 BERT 相当的困惑度。

  在下表 4 中,研究者探究了随着模型容量的增长,Transformer 与 gMLP 模型的扩展性能。结果表明,在模型容量相当时,足够深度的 gMLP 在困惑度上的表现能够赶上甚至优于 Transformer(困惑度越低,模型效果越好)。

  为了脱离注意力的影响,研究者尝试了一个混合模型,其中将一个 tiny 自注意力块与 gMLP 的门控组件相连。他们将这个混合模型称为 aMLP(a 表示注意力)。

  下图 6(左)为具有 tiny 自注意力块的混合模型,图 6(右)为 tiny 注意力模块的伪代码

  研究者展示了完整 BERT 设置下预训练和微调的结果。他们使用了完整的英语 C4 数据集,并采用了批大小为 256、最大长度为 512 和 100 万步训练的常用掩码语言建模设置。

  不过,对于这项研究中提出的基于空间门控单元的 gMLP 架构,有网友质疑:「gMLP 的整体架构难道不是更类似于 transformer 而不是原始 MLP 吗?」

  5 月 23 日 -24 日 19:30-22:00,机器之心特别邀请到吕乐博士团队分享他们在医学影像分析和计算机辅助癌症诊断上的最新进展。

相关推荐
  • 赢咖4娱乐2021全球机器学习技术大会在北京金茂威斯汀大饭店盛大召开!
  • 赢咖42021 年机器学习什么风向?谷歌大神 Quoc Le:把注意力放在 MLP 上
  • 赢咖4信息素养提升实践活动机器人项目“走进”大渡口区科技活动周
  • 赢咖4议题大全|AI Conference 2019北京站重磅回归!
  • 赢咖4注册嵌入式视觉领域的机器学习
  • 赢咖4亚马逊云科技推出Amazon DevOps Guru自动化运营服务
  • 赢咖4娱乐人工智能和机器学习已经成为企业架构的一部分
  • 赢咖4娱乐我用 JavaScript 来学习机器学习
  • 赢咖4注册2021年机器学习概念股有哪些机器学习概念龙头股名单
  • 赢咖4娱乐CS224W 图机器学习课斯坦福大牛主讲
  • 脚注信息
    版权所有 Copyright(C)2020 星辉娱乐
    网站地图|xml地图|友情链接: 百度一下