您的位置:首页 > 互联网

视觉Transformer中ReLU替代softmax,DeepMind新招让成本速降

发布时间:2023-09-20 13:55:02  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:Panda,授权转载发布。

Transformer 架构已经在现代机器学习领域得到了广泛的应用。注意力是 transformer 的一大核心组件,其中包含了一个 softmax,作用是产生 token 的一个概率分布。softmax 有较高的成本,因为其会执行指数计算和对序列长度求和,这会使得并行化难以执行。

Google DeepMind 想到了一个新思路:用某种不一定会输出概率分布的新方法替代 softmax 运算。他们还观察到:在用于视觉 Transformer 时,使用 ReLU 除以序列长度的注意力可以接近或匹敌传统的 softmax 注意力。

论文:https://arxiv.org/abs/2309.08586

这一结果为并行化带来了新方案,因为 ReLU 注意力可以在序列长度维度上并行化,其所需的 gather 运算少于传统的注意力。

方法

注意力

注意力的作用是通过一个两步式流程对 d 维的查询、键和值 {q_i, k_i, v_i} 进行变换。

在第一步,通过下式得到注意力权重

:

其中 ϕ 通常是 softmax。

下一步,使用这个注意力权重来计算输出

这篇论文探索了使用逐点式计算的方案来替代 ϕ。

ReLU 注意力

联发科天玑为何突然崛起

DeepMind 观察到,对于1式中的 ϕ = softmax,

是一个较好的替代方案。他们将使用

的注意力称为 ReLU 注意力。

已扩展的逐点式注意力

研究者也通过实验探索了更广泛的

选择,其中 α ∈ [0,1] 且 h ∈ {relu,relu² , gelu,softplus, identity,relu6,sigmoid}。

序列长度扩展

他们还观察到,如果使用一个涉及序列长度 L 的项进行扩展,有助于实现高准确度。之前试图去除 softmax 的研究工作并未使用这种扩展方案。

在目前使用 softmax 注意力设计的 Transformer 中,有

快手用户量2019

,这意味着

尽管这不太可能是一个必要条件,但

能确保在初始化时

的复杂度是

,保留此条件可能会减少替换 softmax 时对更改其它超参数的需求。

在初始化的时候,q 和 k 的元素为 O (1),因此

也将为 O (1)。ReLU 这样的激活函数维持在 O (1),因此需要因子

才能使

的复杂度为

实验与结果

主要结果

图1说明在 ImageNet-21k 训练方面,ReLU 注意力与 softmax 注意力的扩展趋势相当。X 轴展示了实验所需的内核计算总时间(小时)。ReLU 注意力的一大优势是能在序列长度维度上实现并行化,其所需的 gather 操作比 softmax 注意力更少。

序列长度扩展的效果

图2对比了序列长度扩展方法与其它多种替代 softmax 的逐点式方案的结果。具体来说,就是用 relu、relu²、gelu、softplus、identity 等方法替代 softmax。X 轴是 α。Y 轴则是 S/32、S/16和 S/8视觉 Transformer 模型的准确度。最佳结果通常是在 α 接近1时得到。由于没有明确的最佳非线性,所以他们在主要实验中使用了 ReLU,因为它速度更快。

qk-layernorm 的效果

主要实验中使用了 qk-layernorm,在这其中查询和键会在计算注意力权重前被传递通过 LayerNorm。DeepMind 表示,默认使用 qk-layernorm 的原因是在扩展模型大小时有必要防止不稳定情况发生。图3展示了移除 qk-layernorm 的影响。这一结果表明 qk-layernorm 对这些模型的影响不大,但当模型规模变大时,情况可能会不一样。

添加门的效果

先前有移除 softmax 的研究采用了添加一个门控单元的做法,但这种方法无法随序列长度而扩展。具体来说,在门控注意力单元中,会有一个额外的投影产生输出,该输出是在输出投影之前通过逐元素的乘法组合得到的。图4探究了门的存在是否可消除对序列长度扩展的需求。总体而言,DeepMind 观察到,不管有没有门,通过序列长度扩展都可以得到最佳准确度。也要注意,对于使用 ReLU 的 S/8模型,这种门控机制会将实验所需的核心时间增多大约9.3%。


返回网站首页

本文评论
Linux Lite 4.8稳定版发布:欢迎Windows 7用户使用_linux lite有中文版吗
  Linux Lite 发行版创建者 Jerry Bezencon 今天发布了 Linux Lite 4.8 稳定版,在这样一个值得被铭记的日子(Windows 7 在2020年1月14日正式结束支持)发布新版 ,当然是“有...
日期:08-17
特斯拉柏林工厂产量远不及马斯克期望 即将实行三班倒「马斯克:特斯拉可能会在中国建多家工厂」
华为mate50 pro会有5g版本吗12月20日消息,美国电动汽车制造商特斯拉在推特上发布的一条推文显示,公司位于德国格伦海德的柏林超级工厂上周生产了3000辆电动SUV,这一生产速度要...
日期:12-20
最快8月份发布 任天堂Switch2终于有信了:原生4K「任天堂 switch 2」
快科技8月3日消息,尽管任天堂推出的《塞尔达:王国之心》让Switch玩家有了再战三年的消遣,但是每个任粉内心还是希望早点看到Switch2上市的消息,毕竟第一代的性能实在是落后了。...
日期:08-04
韩媒:各国对半导体并购案审批愈加严格_美国半导体收购案受阻
  并购逐渐成为各大科技公司获取创新技术与人才、增强市场地位的手段之一,对于半导体行业来说更是如此。不过,各国政府为加强供应链确保本国免受缺芯影响,在半导体行业并购...
日期:07-17
apple watchos7.6_苹果 watchOS 7.6.2 正式发布
  9 月 14 日消息 今日凌晨,除 iOS 14.8 与 iPadOS 14.8 外,苹果还发布了 watchOS 7.6.2 正式版更新(内部版本号 18U80)。   苹果表示,本次更新提供了重要的安全性更新,建...
日期:07-17
刚走下泰山被通知回山顶领身份证 女子无奈:不要了 回家补办
泰山”作为出了名难爬的山,如果在山顶东西掉了,你下完山后被通知东西找到了,让你去山顶领,你愿意再爬上去吗?据报道,7月17日,山东泰安,苏女士和朋友爬泰山,结果朋友先掉队,于是自己接...
日期:07-20
元宇宙元素「元宇宙的魔法」
声明:本文来自于微信公众号 孟永辉(ID:menglaoshi0071),作者:南山,授权转载发布。毋庸置疑的是,元宇宙是具有巨大的魔力的。而元宇宙之所以会具有如此巨大的魔力,正是在于它的包容...
日期:09-12
英特尔i7-11700k怎么样_英特尔 i7-11700K 首个评测曝光:峰值功率 291W,性能不及 R7-5800X
3月6日消息 外媒 AnandTech 已经成功购买到了英特尔第 11 代酷睿 i7-11700K 桌面 CPU,并发布了详细评测。外媒购买该处理器花费了 469 美元,约合 3047 元人民币。 IT之家...
日期:07-16
YouTube出“跳过广告” 用户可略近半数广告(youtube跳过广告有收益吗)
  11月3日消息,英国周三消息,用户现在可跳过YouTube近半数视频广告。   YouTube此项“跳过广告”模式称为In-stream,去年十二月,TrueView首先推出广告跳过功能。 In-stream...
日期:07-24
老果粉注意了!旧款iPhone升级iOS 17续航血崩:实测太离谱_iphone7 升级15
快科技9月19日消息,今天凌晨,苹果向外界推送了iOS 17正式版。据了解,一共19款老机型可升级到iOS 17新系统,包括有iPhone14系列、iPhone13系列、iPhone12系列、iPhone11系列、iPh...
日期:09-19
高德打车将推出“春节专享套餐” 投入数千万元假期福利_高德打车特价车开放时间
  还有一周就到春节,运营车辆减少,用户需求增多,打车难再次成为困扰大家的老问题。针对这一问题,高德打车今日宣布推出春节专项方案,其中“一键全网叫车”已覆盖全国城市,目前...
日期:08-21
汽车导航弹窗广告?网友担心影响驾驶安全 车企回应「汽车广告安全提示」
  中新网9月29日电(中新财经记者 吴涛)近日,“车载导航中控屏出现弹窗广告”引发关注,车企回应称“非弹窗广告”,但表示“不会再进行类似推送”。  到底发生了什么?为何导航出...
日期:09-30
ChatGPT代问代注册生意爆火:淘宝屏蔽“ChatGPT”关键词
2月9日消息,近日,因为 ChatGPT 受到了广泛关注,但目前国内 ChatGPT 版本尚未推出,许多商家借此机会涌现出来,提供代问代注册服务,吸引了不少消费者的注意。有的商家可以在一小时...
日期:02-10
淘宝需要李佳琦「淘宝怎么订阅李佳琦」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:吴锐,授权转载发布。回归后的李佳琦依旧可以称之为“顶流”。9月20日,李佳琦开播的消息不胫而走,尽管李佳琦尽可能...
日期:09-30
人人网等抢先LBS布局 考验资源整合能力
  Facebook创始人马克·扎克伯格访华的消息引发了一次“追星热”,而Facebook自身发展和有可能以怎样的产品模式进入中国也再度被业界和网民所关注。值得注意的是,Facebook...
日期:07-25
Quick BI 发布4.7版本,主打复杂表格填报和企业安全权限应用「quickbms」
数据填报:在调研企业数据填报时,发现有不少是基于复杂表格,需要各个人员协同填报的场景。例如,公司财务预算收集、生产进度汇总、门店销售协同、安全生产巡检等。权限应用:企业的...
日期:08-07
艾瑞团购排行榜 聚划算美团拉手居前三
5月23日消息,艾瑞近日发布的2011年3月团购网站总访问次数排行榜,其中前三位分别是淘宝聚划算、美团网、拉手网。 2011年3月月度总访问次数团购网站排名  数据显示,淘宝聚划...
日期:07-28
X100系列首发-联发科天玑9300参数曝光_首次全大核CPU设计 「vivo」「联发科天玑九百怎么样」
今年上半年,联发科推出了天玑9200+移动平台,截至目前已有多款机型进行搭载,是目前安卓阵营性能最强的芯片之一。不过天玑9200+只是开始,联发科官方早前已对外确认了下一代旗舰芯...
日期:09-09
阿维塔科技e11发布会「抢先体验阿维塔11鸿蒙座舱_ 「便捷操作+海量应用」」
【】当前,智能座舱成了各大巨头跑马圈地的重要领域。根据毕马威《2023年智能座舱白皮书》,预计到2026年中国智能座舱市场规模将达到2127亿元,2022年至2026年的年复合增长率约17...
日期:09-17
CSIG携手金山办公举办“企业行”专场 探讨AI时代文档识别前沿技术
5 月 7 日,由中国图像图形学学会(CSIG)主办、金山办公承办的“CSIG企业行”系列活动在珠海金山软件园成功举行。活动以“AI大模型时代文档识别和理解前沿技术探讨”为主题,特邀...
日期:05-09