您的位置:首页 > 互联网

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

发布时间:2024-06-21 22:11:07  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5?

答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。

刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。

具体来说Character.ai在整个服务堆栈中实现了如下成绩:

  • 内存高效架构设计:将KV缓存大小减少20倍以上,而不会降低质量

  • Attention状态缓存:95%请求无需重算

  • 直接用in8精度量化训练:推理零损失还省显存

Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍!

众多公布的方法中,原生int8训练是最受关注的。

虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。

秘诀1:高效利用显存,attention 参数量降低20倍

哈尔滨空调股份有限公司官网

大模型的一大痛点是显存占用高,导致无法支持大批量推理。Attention 层中的 Key-Value(KV)缓存便是罪魁祸首之一。

为了降低显存占用,Character.AI在Attention层大动手术:

  • 全面采用MQA(Multi-Query Attention)

与大多数开源模型中采用的GQA(Grouped-Query Attention)相比,将KV缓存大小减少了8倍。

而MQA正是沙哥本人2019年在谷歌期间提出的,有网友评价“当一个人能在生产环境中引用自己的论文,就达到了一个新的高度”。

  • 混合注意力视野

将局部注意力与全局注意力层交织在一起,使用滑动窗口训练局部注意力,将复杂度从 O(length^2) 降低到 O(length)。

团队发现,将大多数注意力层的注意力范围减少到1024不会对评估指标产生重大影响,包括长上下文大海捞针基准。在Character.ai生产模型中,每6层中只有1层使用全局注意力。

  • 跨层KV共享

团队将KV缓存绑定在相邻的注意力层上,这进一步将 KV缓存大小减少了2-3倍。

对于全局注意力,跨块绑定多个全局层的KV缓存,因为全局注意力层在长上下文用例中主导KV缓存大小,团队发现跨层共享KV不会降低质量。

下图中左半部分是标准Transformer设计,每个注意力都是全局注意力。右半部分为Character.ai的设计,蓝色框表示全局注意力,绿色框表示局部注意力,连线表示KV共享。

这一套组合拳下来,KV缓存大小减少20倍以上,显存再也不是瓶颈了。

秘诀2:巧用状态缓存,95%请求无需重算

Character.AI还有一招神来之笔,就是在不同对话之间缓存Attention状态。

作为聊天机器人角色扮演服务,Character.AI上大部分对话都是连续多轮的,平均每个对话包含180条消息。如果每次都要重新计算前面的状态,成本可想而知。

于是团队设计了一个缓存机制,把每个对话的Prefix和生成的消息都缓存在内存中,供后续调用。

借鉴RadixAttention的思路,树状结构的LRU缓存组织缓存的KV张量。缓存的KV值由前缀token的Rolling Hash速检索最长匹配的缓存,即使前缀只有部分匹配也能命中。

佳能eos r5上市时间

更妙的是,他们还用会话保持(Sticky Session)把同一对话路由到同一个服务器,进一步提高缓存命中率。最终做到95%的请求都能复用已有缓存,大幅降低了计算成本。

下图中,蓝色框表示主机内存上的缓存张量。绿色和黄色框表示CUDA内存上的KV缓存。当新查询到达时,它检索最长匹配前缀的KV缓存,Rolling Hash系统允许检索部分匹配消息的缓存。

秘诀3:直接量化训练,推理零损失还省显存

最后一招,Character.AI没有采用常见的“训练后量化”,而是直接用Int8精度训练模型。

这种格式虽然表达精度降低,但通过精心设计定制的矩阵乘和 Attention 内核,不仅把训练效率提高了好几倍,而且还能无损用于推理。

不过沙哥在这里暂时留了一手,表示“量化训练本身就是一个复杂的话题,将在以后的文章中继续讨论。”

沙哥其人

最后再来介绍一下传奇人物Noam Shazeer本人。

他1994年拿了信息学奥赛IOI金牌,后来毕业于杜克大学。

2000年加入谷歌,当时全公司只有200人左右,他参与了谷歌搜索的拼写纠正功能,后来也负责过早期广告系统。

据知情人透露,在当初面试谷歌时,沙哥就被问到如何实现拼写纠正。他描述了一种根据其他用户的输入输入记录,进行统计验证的方法。

面试官Gmail之父Paul Buchheit意识到,沙哥的方案比谷歌当时使用的要好。沙哥成功入职之后就把他的面试方案写出来了。

在Transformer开山之作《Attention is All You Need》研究中,沙哥最后一个加入团队,一来就负责重新编写了整个代码。

在沙哥出手之前,Transformer早期原型性能并没有超越当时流行的LSTM方案,是他把早期设计中的卷积等模块都拿掉,给出了一个极简主义方案。最终破了BLEU测试的记录,同时计算效率也更高。

队友用“他是一个巫师”来评价他的工程和代码能力。

除此之外,沙哥还有惊人的远见。在Transformer架构问世不久,他就给谷歌高层写信,提议公司放弃整个搜索索引,并用Transformer架构训练一个巨大的神经网络替代。

2021年,沙哥离开谷歌后创办了Character.AI,让玩家简单自创个性化AI陪聊,目前估值约50亿美元。

最近有消息称,Meta与马斯克的


返回网站首页

本文评论
连锁销售业务给淡_做零售经销商如果遇到这两件事,业务利好,坐等收钱!
  打工是不可能的,这辈子是不可能打工的。如果你是一位城市居民,家里没矿但有些流动资金,又正在考虑做点买卖。开工厂钱不够,做批发也没什么熟门熟路的行业。便利店现在太多...
日期:03-06
互联网的估值_分析称中国互联网概念股估值仍偏高 面临商业前景不太确定
  据国外媒体报道,尽管在美上市的中国互联网股票最近因为有关会计丑闻方面的担忧而遭遇大跌,但是分析师并不建议进行抄底,因为这些股票目前的估值仍然较高,并且面临的商业前...
日期:07-30
俐玛精密技术(苏州)有限公司怎么样「快讯|推进国产化替代 俐玛光电工业CT检测中心开工」
【网易科技4月14日报道】投资2亿元的俐玛光电科技北京研发生产基地项目在经开区开工奠基。北京经济技术开发区管委会副主任沈金坤,中国航空综合技术研究所副总师兼材料及检测...
日期:04-15
金壮龙会见国际电信联盟秘书长多琳
2月7日,工业和信息化部部长金壮龙在北京会见国际电信联盟秘书长多琳一行,就推动空间频轨资源可持续发展、深化全球信息通信技术创新合作、支持人工智能等新兴技术发展等议题深...
日期:02-08
苹果11可以用usb-c接口吗「欧盟批准强制苹果使用USB-C接口 2024年底开始:网友热议终要低头」
欧洲议会4日通过一项新规,要求从2024年底开始,所有手机、平板电脑等便携智能设备新机都使用USB Type-C的充电接口。欧洲议会当天以602票赞成、13票反对的投票结果通过有关统一...
日期:10-06
74岁大爷自驾房车游欧洲:不会英语 不影响畅游20个国家_老年人自驾房车游视频
快科技1月25日消息,据国内媒体报道,江苏南通74岁的李万福大爷,2023年完成了自驾房车环游欧洲的壮举,行程共计2.3万公里,畅游 20 个国家,一路上令不少外国友人感到敬佩和惊讶。报道...
日期:01-26
2024年春运1月26日开始 当天开抢除夕火车票_2021年春运火车票明日起售
快科技1月8日消息,据国内媒体报道,中国民航局举行例行新闻发布会,相关负责人介绍,2024年春运将从1月26日开始,3月5日结束,共计40天。据预测,春运期间民航运输旅客量将达到8000万人...
日期:01-09
中文在线等26家单位联合发布AIGC数据版权倡议书
6月7日 消息:近日,中国版权协会主办了远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》。本次活动中,中文在线、同方知网、中国工人出版社等26家单位共同发布了国内...
日期:06-07
调查显示iPhone在果粉生活中比iPad和Mac更重要 维修换新也更快
4月6日消息,据外媒报道,在苹果目前的硬件产品线中,iPhone的销量是最高的,近几年都在2亿部之上,为苹果带来的营收也最多,贡献了苹果近半数的营收。而从国外相关机构最新的调查来看,...
日期:04-06
珑微系统2021生态解决方案发布会即将盛大启幕
  创新驱动发展,科技赋能未来。由成都珑微系统科技有限公司主办、英特尔(中国)有限公司协办,以“镶珑汇聚生态无界”为主题的珑微系统生态解决方案发布会,将于2021年6月8日...
日期:03-05
YouTube被曝最早秋季推在线商店,支持流媒体平台订阅(youtube首页推荐)
2021年投影仪排行快跑外卖app电子结婚证什么样子京东中兴手机专卖店360极速浏览器 皮肤lumia 950 win11YouTube公司 IC 资料图   记者 杨阳   YouTube要为流媒体平台“...
日期:08-16
百度贴吧落寞后,“美国贴吧”Reddit却要上市了
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。作为一个在国内互联网史上必然占据一席之地的产品,百度贴吧在经历了PC互联网时代的高光后,最近几...
日期:03-03
美大助阵苏宁618,12款专供集成灶大幅降价_苏宁电器美大集成灶
  5月15日,苏宁易购618年中大促媒体发布会召开,浙江美大集团董事长夏鼎出席发布会,并与苏宁易购厨卫家装公司总裁柳赛,就集成灶战略合作事宜进行了沟通。   目前,美大在苏宁...
日期:12-10
泡泡玛特的泡泡终于破了「泡泡玛特的泡沫」
出品|虎嗅商业消费组作者|苗正卿题图|视觉中国“我们像一个链条一样做事,当一个项目从上到下都被看好时,它的效率和速度会很高;但当我们想要做一些新的尝试时,它可能会出现问题。”...
日期:09-22
VR鼻祖Oculus创始人:扎克伯格的元宇宙就像烧钱的“项目车”「oculus 元宇宙」
凤凰网科技讯 北京时间10月25日消息,VR头显鼻祖Oculus创始人帕尔默勒基(Palmer Luckey)并不喜欢马克扎克伯格(Mark Zuckerberg)目前为止为元宇宙开发的东西,尽管他确实认为它...
日期:10-29
入股、整合、价格战,量贩零食进入下半场_量贩式零食店加盟哪家好
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:来生,授权转载发布。2023年,量贩零食成为最炙手可热的明星赛道之一。量贩零食行业发生多起融资,多起融资金额超过千...
日期:02-18
小米Q2表现超市场预期,但营收与净利同比增速均下滑_一图看懂小米Q2财报:营收701.7亿元,调整后净利润20.8亿元
买applewatch一定要有iphone吗天玑1200和麒麟9000跑分华为mate50系列最新款   讯 8月19日下午消息,小米集团(HK: 1810)今日发布截至2022年6月30日的第二季度财报。财报显示,小...
日期:08-20
贝锐蒲公英全新云AP!高效云管理、WiFi一键连!「蒲公英贝瑞科技」
随着移动设备和物联网设备的普及,企业需要提供可靠的无线网络基础设施,使员工可以自有的在办公区域内使用各种设备、随时随地开展工作。AP 作为成熟、易用、高拓展的网络连接...
日期:05-25
三星s7070_三星S7070价格
三星S7070是一款早期的智能手机,采用了触控屏设计,它于2010年发售。该手机具有时尚感和实用性,在当时备受欢迎。mac用什么系统好在外观方面,三星S7070的机身细长,屏幕较大,整体造...
日期:05-31
AI翻译耳机,让跨语言交流自然高效的外贸神器!_耳机型翻译机
科技井喷式发展,各类新奇应用层出不穷。如果说目前有哪些硬科技值得关注,除了正在逐步落地的飞行汽车、无人驾驶之外。首当其冲的一定是深度应用AI赋能的翻译耳机。在商务外贸...
日期:05-22