您的位置:首页 > 互联网

Transformer能解释一切吗?_transformer提出

发布时间:2023-08-01 22:23:45  来源:互联网     背景:

提出Transformer的那篇论文《Attention is All You Need》问世已经是六年前的事了。当初的8位论文作者有6人出自谷歌,但到现在大多也已转身寻找新的故事。

Lukasz Kaiser去了OpenAI,他曾经谷歌大脑的同事Noam Shazeer成立了Character AI,估值已经超过10亿美元。另外两位同事Ashish Vaswani和Niki Parmar在创立了AI软件开发公司Adept AI Labs后,把这个同样估值超过10亿的初创公司交给了另一位联合创始人,又开始下一次创业了。

只有Llion Jones,这个从威尔士一个小村庄里走出来的程序员,还留在谷歌。他曾经谈起这个并不够学术的论文标题的由来,是对披头士的那首《All You Need is Love》的简单致敬。

欧乐b双十一活动

而利用注意力机制来提高模型训练速度的Transformer架构,确实让AI从实验室深处的极寒之地里走出来了。它成为当下这场生成式AI浪潮无可争议的基础。某种程度上,上面提到的所有人,都没有真正离开这篇论文。

Mikolov在2010年提出RNN,这个框架在7年后被Transformer取代。而在Transformer问世后的一个相似时间周期后,其高内存消耗和高推理成本的局限性也开始显现出来。

替代者也跃跃欲试了。

“不可能三角”



Transformer的自注意力机制增强了模型并行计算的能力,并且正契合了GPU对大规模数据进行并发处理的设计倾向。但Transformer在面对大型数据集和较长输入序列时,需要的计算量会陡增。

于是并行训练能力、性能和低成本推理,逐渐成为Transformer框架下的“不可能三角”。

近日,微软研究院和清华大学的研究团队提出了一个新的框架RetNet(Retentive Network)来代替Transformer,并表示RetNet可以打破这个“不可能三角”。

“这就像是M1芯片之于笔记本电脑。”一位产品经理在推特上这样形容RetNet。

O(N)困境

在这个“不可能三角”中,RetNet选择的突破口是推理成本。

由于使用了自注意力机制,Transformer模型展现出较高的训练并行性,同时在机器翻译、语言建模等任务上也取得了很好的表现。但取代了RNN的自注意力机制同样成为一种桎梏。

这集中体现在时间复杂度这个标尺上。在描述算法复杂度时,常用O(n)、O(n^2)、O(logn)等表示某个算法在计算耗时与输入数据量(n)之间的关系表示。

O(n)意味着数据量的增加与算法耗时成正比,O(n^2)意味着像冒泡排序那样,算法耗时是数据量的n^n倍。计算耗时越长,算法越复杂,也就意味着推理成本越高。



拿文本翻译做个例子,在处理长文本序列时(假设文本长度为N),自注意力机制的时间复杂度为O(N^2),当N过大时,翻译速度很低。这也是为什么当前的大语言模型,在文本token长度上的进展颇为受人关注。

虽然Transformer可以有效训练并行性,但由于每步的O(N)复杂度以及内存绑定的键值缓存,它们的推理效率低下。 这种低效率使得Transformer模型会消耗大量GPU内存并降低推理速度,因此不适合部署。

从O(N)到O(1)

O(1)无疑是最优的选择,这意味着无论数据输入量n如何变化,算法耗时都是一个常量。

transformer的本质

谷歌购物平台

RetNet框架的最大的惊艳之处就在这里,它将O(N)降维到了O(1)。

RetNet引入了一种多尺度保留机制(multi-scale retention mechanism)来取代多头注意力。作为三种计算范式之一的分块循环表示,可在内存和计算方面实现高效的O(1)推断,从而显著降低部署成本和延迟。

这意味着RetNet的推理成本是固定不变的。在一系列对比RETNet与Transformer及其变体的实验中,对比7B模型和8k序列长度,RetNet的解码速度比带键值缓存的Transformers快8.4倍,节省70%的内存。RetNet的推理延迟变化对输入数据量的大小变化并不敏感,这也让它能够包容更大的吞吐量(Throughput)。

测试结果表示,在训练期间RetNet比标准Transformer节省了25-50%的内存和7倍的加速。

一些重要的实验结果



O(1)为RetNet在GPU内存方面带来的优势是,它完全不随token数增加而变化。



Throughput(神经网络的吞吐量)是一个算法模型在单位时间内(例如,1s)可以处理的最大输入的训练样本数据。RetNet在输入端token数增加的情况下仍然能够维持高吞吐量,而Transformer在这方面的数据则随着token数的增加而逐渐衰减。



Perplexity(困惑度)是语言模型最鲜明的评价标准。它衡量语言模型对单词序列中下一个单词的预测能力。当模型参数量变大时,困惑度往往会降低,即语言模型能够做出更优的预测——这也是为什么我们对万亿参数模型抱有极大期待。

论文中比较了RetNet与Transformer在1.3B、2.7B以及6.7B这三种不同尺寸上的困惑度变化,实验结果RetNet的困惑度下降更快,并且当模型大小超过2B时,RetNet的表现开始优于Transformer。

这一观察结果意义重大,它表明RetNet更适合需要大量计算资源和内存的大型语言模型。



2018年,大模型仍然前景未明的时候,黄仁勋在深度学习的综合性能评价方面提出了PLASTER框架。这是七个测量维度的缩写,其中延迟(Latency)的重要性仅仅被放在可编程性(Programmability)之后(其他五个维度分别是准确率(A)、模型大小(S)、吞吐量(T)、能效(E)以及学习率(R))。

RetNet与Transformer在不同Batch Size(一次训练所选取的样本数)下的延迟表现同样印证了,RetNet的响应速度将在训练规模进一步扩大后展现出优势。

Transformer能解释一切吗

这篇论文中的几位核心作者,在更早时候就已经开始关注GPT在上下文学习中的运行机制。2022年末ChatGPT问世后不久,他们发表了一篇表明Transformer注意力具有双重形式的梯度下降的论文。而这些研究者对于RetNet的野心并不会停留在文本输入上。

论文在最后表示,RetNet将会成为未来训练多模态大语言模型的核心角色。

在这篇论文发表的10天之前,世界人工智能大会上一家投资了智谱AI等多个大模型明星团队的创投公司表示,Transformer在短期内会是多模态的主流网络结构,但并不是人工智能技术的重点,“压缩整个数字世界的通用方法仍未出现”。

Transformer是目前几乎所有主流大模型的基石,这场基于Transformer而起的技术革命,已经快速到达了一个新的摇摆点。外部的压力来自暴涨的算力资源需求,以及人类所有的高质量语料可能在有限的期限内枯竭。



摇摆的地方在于,到底是Transformer还不够好,还是Transformer本身并不是一条正确道路?

至少从RetNet的角度,它仍然是相信Transformer的,RetNet是后者的颠覆版本,但并没有跳出以深度学习为基础,全神贯注在自然语言处理任务上做突破的逻辑框架。

另一种更剧烈的反对声音则直接站在了Transformer的对面,比如再度活跃起来的“卷积神经网络之父”杨立昆。

模型和数据,谁更重要

在几个月前的一次公开演讲中,杨立昆再次批评了GPT大模型。他认为根据概率生成自回归的大模型,根本无法破除幻觉难题。甚至直接断言GPT模型活不过5年。

LeCun的质疑是,基于文本训练的大型语言模型只能理解极片面的真实世界知识,而仅仅靠自回归预测下一个token的单一方式所形成的“智能”缺乏物理直觉。这样的模型能够在真实世界中对物理直觉问题做出对的回答——也可能做出错的回答。因为回答的依据来自将整个真实世界压缩成文本进行训练后所形成的逻辑关系,但这并不是直接面对物理世界本身。

并且由于这样的预测方式本质上缺乏时间尺度,这样的模型也就缺乏真正意义上的规划和决策能力。

矛头在根本上对准Transformer。

言下之意,Transformer统领了一种以预训练规模兑换智能涌现能力——所谓大力出奇迹——的发展道路(并且到目前为止取得了瞩目的成果),但如果真的有一条通往AGI的道路,到底是该以数据驱动模型,还是模型驱动数据?这仍是一个悬而未决的问题。

“刺激—反应”

杨立昆与这条区别于GPT的AGI未来猜想路径,更强调智能体主动发起的与物理世界之间的实时关系,这是强化学习擅长的事。在这一点上,Transformer的继承者RetNet也只是治标不治本。

OpenAI在ChatGPT中以人类反馈强化学习(RLHF)的微调方法补充了这种实时反馈的能力。但大语言模型的所有“常识”——也就是其智能所在——都来自一次次隆重的预训练,即在知道最优数据分布时,依靠巨大的模型、算力以及数据去拟合分布。这是Transformer与GPU在并行计算能力上的契合所带来的便利,而作为Transformer继任者的RetNet,只是在极力优化这整个后续的计算过程。

而强化学习与有监督学习、无监督学习都不一样。它本身并不知道最优分布,而是通过奖励信号的反馈机制不停的寻找相对的“最优”。这种在与环境交互中主动“试错”,并且获取正反馈(收益),进而从自身经验中进一步理解环境的方式,相比自监督学习来说更加接近人类对于物理世界的理解方式,这就像心理学中的“刺激—反应”理论。



很多人对强化学习的第一次感性认识都来自曾颠覆了人类围棋世界的AlphaGO,而到目前为止。全世界可能也没有另一家公司比AlphaGO背后的公司DeepMind更懂强化学习。

与RetNet在Transformer的基础上做调整不同,DeepMind在6月末提出了另一种大模型的迭代思路——AlphaGo+GPT4。

小米手机市场地位

AlphaGo和AlphaZero

人类一败涂地的故事总是瞩目,但AlphaGO曾有一个后辈AlphaGo Zero。

2016年,AlphaGO用树搜索和上万张棋局的预先学习,4:1击败了李世乭。但另一个延续下去的故事是,AlphaGo Zero在一年后以100:0的战绩击溃了AlphaGO。

2017年《自然》上的一篇论文介绍了这项壮举,核心的内容是AlphaGo Zero如何在完全没有先验知识,即不依赖任何人类数据、指导或领域知识的前提下,通过自我学习来获得超越人类水平的专业领域能力。

换言之,AlphaGo Zero就好像带着一个空脑袋,坐在一间屋子里,在只掌握围棋游戏规则信息,眼前只有一副围棋棋盘和棋子的情况下,击败了AlphaGO。

AlphaGo Zero的不同之处在于它采用了一种完全基于强化学习的算法,仅仅将自己作为老师,以此诞生出更高质量的走法选择。与使用人类专家数据进行训练相比,纯粹的强化学习方法只需要多训练几个小时,但渐近性能(算法在接近其理论极限时的性能)要好得多。

AlphaGo Zero的胜利是强化学习的胜利。但它的局限性也很明显,就像杨立昆所推崇的能量模型(Energy-based Models)所具有的问题一样,“采样速度太慢了”,一位强化学习领域的研究者表示。

oppor15和r15x外观有什么区别

Gemini

现在这条更侧重强化学习的AGI路径,压在了DeepMind正在研究的一个新的名为Gemini的大模型身上。DeepMind CEO哈萨比斯表示,对Gemini的研发投入将会超过数千万甚至数亿美金。做个对比,OpenAI用1个亿美金迭代出了GPT-4。



“Gemini”本身是双子座的意思。在哈萨比斯的表述中,这个全新的大模型将会是GPT4和AlphaGo的结合体,它仍然是一个大语言模型,但AlphaGo所具备的强化学习和树搜索能力会给Gemini带来更强的决策和规划能力——这个杨立昆认为GPT在AGI道路上早晚会遇到的阿喀琉斯之踵。

Gemini背后的谷歌显然希望能借着Gemini重新在与微软的争锋中占到一个好的位置。在ChatGPT问世之后,谷歌快速站到了OpenAI的对手Anthropic的背后。如果这被看作一种防守姿态的话,Gemini则更像谷歌主动发起的一场新的路线之争,就像曾经在GPT与BERT身上发生过的事情一样。

但无论如何,RetNet或是Gemini,改革或是淘汰Transformer的狂妄本身,已经包含了对这个伟大框架的所有敬意。


返回网站首页

本文评论
越南加大稀土开发 产能激增:美国等为打破中国主导地位 扩大采购
7月25日消息,由于新能源车等需求加大,越南计划到2030年将其稀土产量提高至202万吨/年。根据越南计划,越南北部莱州、老街和安拜三省的九个稀土矿的开采将有助于提高产量。该文...
日期:07-25
Meta又被起诉了:未经允许收集患者医疗信息用于精准广告(搜索引擎存在虚假医疗广告)
华为手环6不支持微信支付吗深圳2021年专精特新企业新学期开学购机推荐,总有一款适合你的游戏当贝f3投影仪怎么样?oppo低配高价是真的?疫情辟谣平台有哪些   讯 北京时间8...
日期:08-04
小米将推出采用联发科dimensionity 8200 ultra芯片的新手机
小米将于本月底发布其新手机,小米civi 3。这款手机将采用联发科全球首款dimensionity8200ultra芯片,该芯片由小米和联发科共同定义,将显著提高手机的成像能力。dimensionity820...
日期:05-21
苹果支持水下拍摄「苹果获批在水下操控iPhone屏幕的技术专利 手湿也可以操作手机」
2月24日 消息:根据美国商标和专利局的公示,苹果获得了一项技术专利,可以使iPhone正常在水下运行。特斯拉交付专员招聘iPhone具有不受水影响的光学触摸传感器,用户可以手湿也可...
日期:02-25
全国七仓多城覆盖,蜜芽仓储物流优势明显提升
  新零售时代的到来,让电商产业从原来的“零售商”转变成为“服务商”。特别是母婴市场,如何让消费者感受的舒心畅快的购物体验,成为了各大母婴平台新的商业目标。作为母...
日期:07-14
我们可以对收藏夹进行备份当重装系统时可以_收藏夹、常用设置一键备份 重装系统也不丢
  在电脑使用中,随时可能的发生系统崩溃、硬件故障等意外,这些意外事件会造成未备份数据的丢失,系统设置、常用软件、IE收藏夹等重要资料都在其中。但是,这些内容用户平常一...
日期:07-23
巴菲特原话「巴菲特体验ChatGPT后感到担忧 将AI比作原子弹」
【网易科技5月8日报道】近几个月,AI的快速发展让科技圈迎来了“大地震”。近日,巴菲特在伯克希尔哈撒韦公司年会上发表对于人工智能的观点,表示对其快速发展感到担忧。据巴菲特...
日期:05-08
中国移动TD五期难改配角地位 HSPA+未列入计划
  一边是TD五期招标全面展开,另一边是TD-LTE规模试验第一阶段圆满完成。未来,TD-SCDMA将驶向何方?在中国移动的多网融合策略中将扮演什么样的角色引发了众多猜测。近日,中国...
日期:07-24
华为推送服务更新:支持自定义通知按钮功能(华为统一推送服务)
  3月28日消息 华为开发者联盟表示,华为推送服务现已支持自定义通知按钮,同时更新了华为推送服务在控制台的操作界面,让开发者可以一站式配置通知内容,并在配置的同时能够实...
日期:01-13
为呼吁玩家的安全意识,腾讯这场“夏日无见盗”主题活动用心了
(原标题:为呼吁玩家的安全意识,腾讯这场“夏日无见盗”主题活动用心了) 随着游戏行业的飞速发展,游戏诈骗类问题也收到各方关注...
日期:08-24
淘宝调整关于服饰、床品母婴抽检标准 10月12日生效「母婴用品执行标准」
10月8日 消息:最近,淘宝发布了通知称,为平台拟调整《淘宝网抽检标准(服饰类)》《淘宝网抽检标准(床品、母婴类)》。此次规则调整将于2022年10月12日正式生效。电视网络机顶盒哪...
日期:10-09
AMD锐龙7000X3D不再烧毁了!内存也半残了「锐龙7000系列cpu」
前段时间,AMD锐龙7000X3D系列处理器接连出现烧毁现象,连带主板也挂掉。AMD倒是很快锁定了原因,原来是AMD EXPO或者Intel XMP内存超频导致核心电压过高,超出规范。现在,AMD已经推...
日期:05-09
高德地图联合阿里公益上线“药物公益互助”平台_高德地图 阿里云
1月3日消息,近日,高德地图联合阿里巴巴公益发布了新冠药物公益互助平台,用户之间可通过该平台实现基于位置的药品互助。据高德地图介绍,用户只要打开高德地图APP,在首页搜索“药...
日期:01-03
快速安全又省心 4399游戏盒最酣畅的游戏体验(比4399游戏盒还好的游戏下载软件)
  辛苦工作一天后玩玩游戏放松放松,当然希望能以最省心的方式进入喜欢的游戏,可别再为游戏下载、游戏安装等等问题烦恼不已。4399游戏盒这个目前国内最大最全的单机游戏仓...
日期:07-27
旅游卫视改版于哪个电视台的旅游综合频道?()_搜狐自制剧登旅游卫视 台网联动增加竞争
  10月14日消息,在“台网联动”模式上不断寻求新突破的搜狐视频,近期在这一领域再下一城。日前,在旅游卫视新开设的一期名为“网剧来了”栏目上,搜狐视频独家提供的人气青春...
日期:07-23
网络流行语别乱用 火锅店宣传中使用白嫖一词被罚2万:被指低俗
作为一个网络常用语,白嫖”这个词在Steam、EPIC游戏喜加一的时候很常见,大家调侃有了白赚的机会,然而现实中使用这个词做宣传,可能会被处罚,上海一家公司就因此被罚款2万元。据02...
日期:01-09
东南亚走访第一弹:小杨哥、老罗都在布局的东南亚MCN,真赚钱吗?
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:赵思尧,授权转载发布。进入2023年,出海圈似乎回到了2019年的状态,从业者开始更频繁地出国到本地市场考察和学习。四月初,白...
日期:04-28
全球高端手机最新出货排名出炉:国产小米第一 华为第二「全球高端手机销量」
快科技5月29日消息,受消费者换机周期延长等因素,全球手机市场出货量在上半年仍处于下跌趋势,不过下跌趋势有所放缓。特斯拉的专卖店日前,市场分析机构Canalys发布2023年第一季度...
日期:05-30
ff91融资最新进展「FF增加9000万美元融资承诺 推动FF91持续生产和交付」
6月28日 消息:法拉第未来(FF)宣布,在原有的1500万美元融资承诺的基础上,增加了9000万美元的额外融资承诺。汽车芯片代工中芯国际注意这四类家电没必要用贵的这轮投资由现有投资...
日期:06-28
劳斯莱斯不让进展台 小姐姐直接买了仰望U8、仰望U9两款车_仰望设备
快科技4月23日消息,近日B站UP主飞飞的车COOL”发视频称,自己在上海车展遇到了一件离谱的事儿,她作为劳斯莱斯、兰博基尼车主,竟然不能进展台,甚至是被销售看不起.....第三方支付...
日期:04-23