您的位置:首页 > 互联网

斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家

发布时间:2023-07-19 00:34:54  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色 ,授权转载发布。

现有大语言模型的训练和推理速度,还能再快一点——

快多少?2-4倍。

各种大模型都在用的FlashAttention今天正式发布第2代并开源,所有Transformer架构的模型都可使用它来加速。

图片

一代方法去年6月发布,无需任何近似即可加速注意力并减少内存占用。

现在,FlashAttention-2将它再度升级,使其核心注意力操作的速度再提高2倍,端到端训练Transformer时的速度再提高1.3倍,并可在英伟达A100上训练时实现72%的模型FLOP利用率(一般模型都在50%上下)。

图片

鉴于现在炼一个大语言模型的成本高达数千万美元,FlashAttention-2这一系列操作直接就能帮我们省掉数百万(美元)!

网友惊得脏话都出来了(狗头):

图片

目前,这个项目已在GitHub上收获4.4k标星。

图片

与此同时,我们注意到,它的一作已经完成斯坦福博士学位并加盟大模型创业公司Together AI。

具体实现

据介绍,一代FlashAttention是一种对注意力计算重新排序的算法,它利用经典方法如tiling(切片)来显著加快计算速度,并将序列长度的内存使用量从二次方减为线性。

其中tiling方法指的是将输入块从HBM(GPU内存)加载到SRAM(快速缓存),然后对该块进行attention操作,再更新HBM中的输出。

对HBM的反复读写就成了最大的性能瓶颈。

图片

正是这种通过避免将大型中间注意力矩阵写入HBM的方法,FlashAttention减少了内存读/写量,从而带来2-4倍的时钟时间加速。

然而,这个算法仍然存在一些低效率的问题,导致它仍然不如优化矩阵乘法(GEMM)运算来得快,最终仅达到理论最大FLOPs/s的25-40%(例如在A100上最多124TFLOPs/s)。

究其原因,还是因为不同线程块之间的工作和GPU上的wrap划分不理想。

在此,FlashAttention-2进行了三方面的改进

首先,在基础算法上,减少非matmul(矩阵乘法)FLOP的数量。

一层原因是由于现代GPU具有专门的计算单元,matmul速度更快。例如A100上FP16/BF16matmul的最大理论吞吐量为312TFLOPs/s,但非matmul FP32的理论吞吐量仅为19.5TFLOPs/s

另一层原因是价格考量,毕竟每个非matmul FLOP比matmul FLOP贵16倍。同时在matmul FLOP上花费尽可能多的时间也能保持高吞吐量。

为此,作者重写了FlashAttention中的softmax trick,无需更改输出即可减少重新缩放操作的数量,以及边界检查和因果屏蔽操作(causal masking operation)。

其次,当batch size较小时并行化以获得更高的占用率。

FlashAttention一代在batch size和注意力头数量上进行并行化。

由于它使用1个线程块来处理1个注意力头,总共就有(batch_size*注意力头数)个线程块,每个线程块被安排在流式多处理器(SM)上运行。

当在像A100这样有108个SM处理器上操作时,如果线程块很多比如>=80,这样的调度安排就很有效。

而在长序列的情况下,也就是batch size和头数量很少(小)时,就需要在序列长度维度上另外进行并行化来更好地利用GPU上的多处理器了。

这个改进也是FlashAttention-2速度显著提升的一大原因。

最后,改进工作分区。

在线程块内,我们必须确定如何在不同的warp之间划分工作。通常是每个块使用4或8个warp,现在,作者改进了这一方式,来减少不同warp之间的同步和通信量,从而减少共享内存读写操作。

如下图左所示,FlashAttention一代的做法是将K和V分割到4个warp上,同时保持Q可被所有warp访问。这样的后果是所有warp都需要将其中间结果写入共享内存,然后进行同步再将中间结果相加,非常低效,减慢了FlashAttention中的前向传播速度。

图片

而在FlashAttention-2中,作者将Q分为四个warp,同时保证所有warp都可访问K和V。

每个warp执行矩阵乘法获得Q K^T的切片后,只需与V的共享切片相乘即可获得相应的输出。也就是说warp之间不需要通信,那么共享内存读写操作就少了很多,速度也就提上来了。

除了这三个大改进,FlashAttention-2还有两个小改动:

一是注意力头数从128增至256,这意味着GPT-J、CodeGen和CodeGen2以及StableDiffusion1.x等模型都可以使用 FlashAttention-2来进行加速和内存节省了;

二是支持多查询注意力(MQA)和分组查询注意力(GQA)。

实验评估

oppo手机微信视频影像静止

作者在A10080GB SXM4GPU上对不同配置(有无causal mask,头数量64或128)下的运行时间进行了测量。

结果发现:

FlashAttention-2比FlashAttention(包括xformers库和Triton中的其他实现)快大约2倍,这也意味我们可以用与之前训练8k上下文模型相同的价格来训练具有16k上下文的模型了(也就是模型上下文长度加倍)。

而与PyTorch中的标准注意力实现相比,FlashAttention-2的速度最高可达9倍。

图片

此外,有了FlashAttention-2,我们只需在H100GPU上运行相同的实现(不使用特殊指令利用TMA和第四代Tensor Core等新硬件功能),训练速度就可以跑到高达335TFLOPs/s的成绩。

图片

以及当用于端到端训练GPT式模型时,FlashAttention-2还能在A100上实现高达225TFLOPs/s的速度(模型FLOPs利用率达72%)。这与已经优化程序足够高的FlashAttention相比,速度再提高了1.3倍。

图片

一作加入大模型创业公司

FlashAttention-2论文仅显示一位作者:Tri Dao。他也是FlashAttention一代的两位共同作者之一。

图片

据了解,Tri Dao的研究方向为机器学习和系统的交叉领域,去年拿下ICML2022杰出论文亚军奖。

最近他刚刚获得斯坦福大学计算机科学博士学位,即将上升普林斯顿大学助理教授,并已宣布加盟生成式AI创业公司Together AI(该司主要目标构建一个用于运行、训练和微调开源模型的云平台)担任首席科学家

One More Thing

最后,有网友发现,除了FlashAttention-2,最近还有一系列类似成果,包括DeepSpeed的ZeRO++、马萨诸塞大学de ReLoRA。

它们都是用于加速大型模型预训练和微调,这些研究成果让他觉得:

未来在低vram低带宽的消费显卡上训练大模型,似乎已不是在做梦了。

图片

大家认为呢?

论文地址:

https://tridao.me/publications/flash2/flash2.pdf

博文地址:

https://princeton-nlp.github.io/flash-atttention-2/

GitHub主页:

https://github.com/Dao-AILab/flash-attention

参考链接:

[1]https://twitter.com/tri_dao/status/1680987577913065472?s=20

[2]https://twitter.com/togethercompute/status/1680994294625337344?s=20

[3]https://twitter.com/main_horse/status/1681041183559254017?s=20


返回网站首页

本文评论
一款能喝的手机,realme 10 Pro 将推出可口可乐联名款手机
2023 年 1 月 30 日消息,据 realme 官网海报显示,其将与可口可乐联名推出基于真我 10 Pro 打造的手机。此外,realme 副总裁 Madhav Sheth 发布一条推文,并晒出了一张 realme 10...
日期:01-30
微软发出警告:禁止竞争对手使用必应数据库支持AI工具_必应是微软的子公司吗
3月25日 消息:最近,微软因据称威胁搜索引擎竞争对手而引起了一些争议。据悉,微软最近在与谷歌和其他搜索引擎竞争时,采取了一些不公平的竞争行为。据悉, 微软威胁搜索引擎竞争对...
日期:03-25
罗永浩李诞直播带货「罗永浩李诞同台直播,拿下1.2亿销售额,卫星被神秘买家秒抢」
声明:本文来自微信公众号“天下网商”(ID:txws_txws),作者:杨洁,编辑:吴羚玮,授权转载发布。2020年,直播电商规模与流量以空前速度增长。当时深陷债务危机的罗永浩被一份调研报告...
日期:04-03
育碧新作2022「育碧新作Project U」
Project U”是育碧旗下某款PvE游戏的项目代号,之前还有一款MOBA新作被命名为Project Q”。Project U”正面向欧洲地域筹备封测,背景设定是玩家合作对抗机器人大军显然,这是一款...
日期:10-05
13代酷睿太亮眼 锐龙7000性价比输了 网友喊话:AMD该降价「锐龙r74700u和11代i5哪个强」
对DIY玩家来说,今年可以说是一次丰盛之年了,AMD、NVIDIA及Intel都有新一代产品在近期问世,显卡方面大家很清楚AMD这一代恐怕也很难掀翻RTX 40系列的优势,但在CPU处理器上,AMD的锐...
日期:10-24
中国共享经济规制研究报告:近五年网约车诉讼逐年递增,司法重点逐渐转移
  21世纪经济报道见习记者 钟雨欣 北京报道  “尽管我国在共享经济领域的发展,无论是业态模式,还是法律规制,都取得了一定的成果,但是共享经济的发展仍然面临着新的机遇和挑...
日期:09-12
疫情冲击游戏行业:玩家回归现实世界 游戏公司销售滑坡_全球疫情
macbook air retina   讯 北京时间8月15日早间消息,据报道,近几个月,随着疫情后玩家逐渐回归现实世界,同时生活成本的上升迫使他们削减开支,游戏公司的销售和玩家的参与度都在...
日期:08-16
嗨学品牌专注提升终身职业价值 为职场人士持续“赋新能”、“添动能”
  随着国家从人口红利型社会向人才红利型社会过渡,产业升级带动职业更迭迅速,令人才供求不平衡问题凸显。在线职业教育直击痛点,利用了互联网资源整合的优势,不仅解决了传统...
日期:07-17
知乎创始人周源:知乎大语言模型”知海图AI“,已经运用进了知乎热榜
4月14月消息,知乎创始人、董事长兼CEO周源在“2023知乎发现大会”上表示,知乎是一个以人与人的讨论分享为核心的生态,从移动互联网时代行至AI时代,知乎以问答形式搭建了专业、多...
日期:04-14
和罗永浩“分手”后,交个朋友交到了新朋友「我的朋友罗永浩」
  每经记者 杜蔚;;每经编辑 杨夏;;  3场直播累计观看量1.56亿!近期,淘宝“一哥”李佳琦低调返场带来了亮眼带货数据,让外界再次感受到头部主播IP的影响力,也掀起了大众对抖...
日期:10-01
《2021中国大数据产业发展白皮书》: 基础设施是大数据产业发展的基础
  日前,《2021中国大数据产业发展白皮书》正式发布,该报告立足“十三五”时期大数据发展成就,展望“十四五”时期大数据发展趋势,分析了中国大数据产业发展演进、政策体系、...
日期:07-17
数知科技董事长张志勇:打造数字经济新引擎(数知科技张志远)
  5月9日,主题为“以信息化培育新动能,用新动能推动新发展,以新发展创造新辉煌”的第二届数字中国建设峰会在福建省福州市海峡国际会展中心落下帷幕。作为中国领先的大数据...
日期:11-22
花声匠音乐讲堂_团队建设创未来 花声匠设计服务以更优体验开拓新篇章
  创意,点亮生活。大家有没有留意到,在我们的生活中,随处可见新颖的创意作品。例如,电梯里滚动播放的广告、地铁站中的画幅、显示屏上的宣传动画……这些,都是经过精心设计,制...
日期:11-14
抖音异议抖驴商标失败 不与抖音构成近似,不会造成混淆_抖音上商标侵权投诉
9月29日 消息:天眼查信息显示,近日,第54285649号“抖驴”商标准予注册的文书公开。文书显示,北京字跳网络技术有限公司对京杭(温州)科技有限公司申请的“抖驴”商标提出异议。饿...
日期:09-30
文本到代码库:开发人员爱上 GPT-Engineer_文本程序代码
6月25日 消息:目前,许多对 AI 感兴趣的开发人员的注意力都集中在一个特定的 GitHub 存储库上:GPT-Engineer。基于 GPT-4的软件旨在根据程序员的需求自动化大部分代码编写过程...
日期:06-25
字节跳动旗下 Ohayoo 游戏平台:积极落实未成年人游戏防沉迷最新规定
  8 月 31 日消息 今日,字节跳动旗下休闲游戏发行平台 Ohayoo 发布声明称,就国家新闻出版署下发《关于进一步严格管理 切实防止未成年人沉迷网络游戏的通知》,Ohayoo 表示坚...
日期:11-27
马斯克脑机接口公司劲敌Synchron获贝索斯、盖茨投资7500万美元「马斯克脑机交互设备」
12月16日消息,美国当地时间周四,脑机接口创企Synchron宣布完成7500万美元融资,投资者包括亚马逊创始人杰夫·贝索斯(Jeff Bezos)、微软联合创始人比尔·盖茨(Bill Gates)旗下投...
日期:12-16
《原神》揽金260亿后,米哈游如何布局下个时代?「米哈游原神投资」
声明:本文来自于微信公众号 全天候科技(ID:iawtmt),作者:胡描,授权转载发布。9月28日,开放世界二次元手游《原神》迎来了两周年纪念日。据Sensor Tower商店情报数据显示,截至上个...
日期:10-03
超敢冲,尽兴玩!ColorOS宣布继续参展ChinaJoy
  一年一度的娱乐盛会 ChinaJoy(中国国际数码互动娱乐产品及技术应用展览会)将于 7 与 31 日在上海新国际博览中心隆重举办,除了动漫、游戏之外,手机厂商们也忙得不亦乐乎...
日期:07-14
iPhone 14零件成本较13上涨20%:苹果卖一部仍能赚5000多元_苹果13手机成本
2022年由于通胀、物流及大宗商品原料等原因,电子产品的成本都会有不同程度上涨,苹果的iPhone 14手机也不例外,日本拆解显示iPhone 14系列手机的零部件成本比iPhone 13上涨了20%...
日期:10-11