您的位置:首页 > 互联网

大模型无限流式输入推理飙升46%!国产开源加速全家桶,打破多轮对话长度限制

发布时间:2024-01-08 15:26:20  来源:互联网     背景:


新智元报道

编辑:好困 桃子

【新智元导读】大模型推理再次跃升一个新台阶!最近,全新开源的国产SwiftInfer方案,不仅能让LLM处理无限流式输入,而且还将推理性能提升了46%。

panic playdate掌机

在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升。

但StreamingLLM使用原生PyTorch实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。

Colossal-AI团队开源了SwiftInfer,基于TensorRT实现了StreamingLLM,可以进一步提升大模型推理性能46%,为多轮对话推理提供了高效可靠的落地方案。

开源地址:https://github.com/hpcaitech/SwiftInfer

StreamingLLM简介

大语言模型能够记住的上下文长度,直接影响了ChatGPT等大模型应用与用户互动的质量。

如何让LLM在多轮对话场景下保持生成质量,对推理系统提出了更高的要求,因为LLM在预训练期间只能在有限的注意力窗口的限制下进行训练。

常见的KV Cache机制能够节约模型计算的时间,但是在多轮对话的情景下,key和value的缓存会消耗大量的内存,无法在有限的显存下无限扩展上下文。

同时,训练好的模型在不做二次微调的前提下也无法很好地泛化到比训练序列长度更长的文本,导致生成效果糟糕。


来源:https://arxiv.org/pdf/2309.17453.pdf

StreamingLLM为了解决了这个问题,通过观察了注意力模块中Softmax的输出,发现了attention sink的现象。

我们知道注意力机制会为每一个token分配一个注意力值,而文本最初的几个token总是会分配到很多无用的注意力。

当我们使用基于滑动窗口的注意力机制时,一旦这几个token被踢出了窗口,模型的生成效果就会迅速崩溃。但只要一直把这几个token保留在窗口内,模型就能稳定地生成出高质量的文本。

比起密集注意力(Dense Attention)、窗口注意力(Window Attention)以及带重计算的滑动窗口注意力(Sliding Window w/ Re-computing),StreamingLLM基于attention sink的注意力机制无论是在计算复杂度还是生成效果上都表现优异。

在不需要重新训练模型的前提下,StreamingLLM能够直接兼容目前的主流大语言模型并改善推理性能。

airpods pro可以控制音量吗

SwiftInfer:基于TensorRT的StreamingLLM实现

为了将StreamingLLM这一技术更好的应用到落地场景,Colossal-AI团队成功地将StreamingLLM方法与TensorRT推理优化结合,不仅继承了原始StreamingLLM的所有优点,而且还具有更高的运行效率。

此外,使用TensorRT-LLM的API,还能够获得接近于PyTorch API的模型编写体验。 基于T ensorRT-LLM,团队 重新实现了KV Cache机制以及带有位置偏移的注意力模块。

如下图所示,假设窗口大小为10个token,随着生成的token增加(由黄色方块表示),我们在KV缓存中将中间的token踢出,与此同时,始终保持着文本开始的几个token(由蓝色方块表示)。 由于黄色方块的位置会发生变化,在计算注意力时,我们也需要重新注入位置信息。


需要注意的是,StreamingLLM不会直接提高模型能访问的上下文窗口,而是能够在支持流式超多轮对话的同时保证模型的生成效果。

武汉小鹏汽车工厂多少人

大模型无限输入流推理加速46%

原版本的StreamingLLM可以可靠地实现超过400万个token的流式输入,实现了比带重计算的滑动窗口注意力机制高出22.2倍的速度提升。

Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,最多带来额外的最多46%的推理吞吐速度提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。TensorRT-LLM团队也在同期对StreamingLLM进行了类似支持。


Colossal-AI社区动态

Colossal-AI目前已获得GitHub星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求。作为主流开源AI大模型系统社区,Colossal-AI生态在多方面保持活跃更新。


Colossal-LLaMA-2-13B开源

Colossal-LLaMA-2-13B模型,仅用25B token数据和万元算力,效果远超基于 LLaMA-2 的其他中文汉化模型。

即使与其他采用中文语料,可能花费上千万元成本,从头预训练的各大知名模型相比,Colossal-LLaMA-2在同规模下仍表现抢眼。

13B 版本通过构建更为完善的数据体系,在知识性内容掌握程度,自然语言处理任务理解程度,以及安全性,价值观等问题上,都有质的提升。

三星集团总裁李健熙


Colossal-AI云平台

Colossal-AI云平台在整合Colossal-AI系统优化和廉价算力的基础上,近期发布了AI云主机的功能,方便用户以近似裸机的方式进行AI大模型的开发和调试,并提供了多种使用方式,包括:Jupyter Notebook、ssh、服务本地端口映射和grafana监控,全方位的为用户提供便捷的开发体验。

同时,还为用户预制了含有ColossalAI代码仓库和运行环境的docker镜像,用户无需环境和资源配置,便可一键运行ColossalAI代码仓库中的代码样例。

Colossal-AI开源地址:
https://github.com/hpcaitech/ColossalAI

参考资料:

https://hpc-ai.com/blog/Colossal-AI-SwiftInfer



返回网站首页

本文评论
荣耀手环7上架开启预约:两周长续航、96种运动模式「荣耀手环7上市时间」
12月20日消息,荣耀新品发布会将于12月26日正式召开,在本次的发布会上荣耀手环7将会亮相。据悉,荣耀手环7拥有两周长续航时间、96种运动模式,支持全天候血氧监测,同时有3种表壳配...
日期:12-21
韵达股份:控股股东一致行动人持股内部转让完成,占公司总股本0.32%
11月16日消息,韵达控股股份有限公司(下称“公司”)发布《关于控股股东的一致行动人持股内部转让完成的公告》(下称《公告》)。《公告》显示,公司于2022年11月15日收到控股股东的...
日期:11-17
华为智慧屏S3 Pro开售 11999元支持240Hz鸿鹄画质_华为智慧屏s pro 评测
7月10日 消息:华为智慧屏S3Pro86英寸今日正式开售,价格为11999元。这款电视采用了一体成型金属机身设计,配备了4K旗舰芯片和AI视觉芯片,提供了4GB内存和64GB存储空间。华为智慧...
日期:07-10
霍尼韦尔推出新型液流电池技术,放电时间可达 12 小时
  11 月 1 日消息,据霍尼韦尔官方新闻报道,霍尼韦尔于近日宣布推出一种液流电池,可以存储长达 12 小时的电力,远超传统锂电池仅 4 小时的存储时间,并将以此为契机进军储能市场...
日期:08-27
腾讯Q+应用平台推荐亲贝网女性安全期计算器
  应用推荐:女性安全期计算器(地址:http://tools.qinbei.com/1-1.html)   计划生育这等大事,直接关乎女性健康,Q+女性安全期计算器成为了年轻女性朋友们最贴心的应用,亲贝网...
日期:07-23
屈臣氏入会扫码才能买水 店家:为提供优惠_屈臣氏用会员直接报电话吗
7月7日消息,近日来自福建的何女士反映,她到福州长乐区十洋国际城的屈臣氏(长乐十洋店)想买两瓶水,却被导购要求必须先注册会员、关注门店导购企业微信,否则不能付款。苹果iphone功...
日期:07-08
联姻”路漫漫,并购终收官:T-Mobile宣布今夏关闭Sprint品牌_sprint被t-mobile收购
  北京时间5月15日上午消息,据外媒报道,T-Mobile证实,Sprint品牌将在今年夏天消失。在本周早些时候的一次投资电话会议上,新上任的T-Mobile首席执行官迈克·西弗特(Mike Siev...
日期:05-24
《极品飞车》开发商“最强”游戏主机Mad Box外观公布_极品飞车ngc
  IT之家1月5日消息 不久前,《极品飞车:变速》和《赛车计划》系列的开发者Slightly Mad工作室,宣布了他们计划开发一款新的游戏机,称这将是“ 有史以来最强大的游戏机”,将于...
日期:03-22
OpenAI 在 ChatGPT 推出前雇佣多名谷歌员工帮助改进产品「open a google account」
2月15日消息:据The Information援引消息人士的话报道说,最近几个月,OpenAI这家大热的人工智能聊天机器人ChatGPT和图像生成器DALL-E背后的初创公司已经雇用了十多名前谷歌员工...
日期:02-15
手机销售商卖顾客个人信息被提出公益诉讼!结果来了......
  来源/中国消费者报·中国消费网  记者/刘文新  编辑/裴莹;  监制/何永鹏 任震宇  通讯经营部竟然将消费者的个人信息随意出售,用于注册电商平台帐号,非法获利上万...
日期:09-26
Twitter首席执行官声称暂不考虑出售或上市_twitter的ceo
  北京时间1月8日消息,据国外媒体报道,热门微博网站Twitter的首席执行官迪克科斯特罗(Dick Costolo)今日在拉斯维加斯CES展会上表示,公司打算保持独立运营,暂时不会考虑出售或...
日期:07-25
辽B女司机辽宁自驾到欧洲火爆全网 科普国人如何全球自驾游
近日,一则短视频中出现的辽B 50k2K”牌照的长安欧尚X7 SUV火爆全网,单条视频点赞量超70万。视频中的定位显示是在意大利,但视频车前方竟然出现了一辆中国辽宁大连牌照的车。评...
日期:08-15
天猫超市明日将放量2万瓶1499元飞天茅台_40万瓶!1499元飞天茅台!天猫超市明天起陆续上架
1月12日 消息:据天猫超市消息,本周将放量30000瓶1499元的飞天茅台,这也是在农历新年前期最大的一次放量。据介绍,1月10日晚上8点放出10000瓶,1月13日晚上8点放出20000瓶,两次放量...
日期:01-12
做战略,找明德。明德战略咨询 —— 是服务,更是引领_明德战略创始人
做战略,找明德明德战略咨询——是服务,更是引领明德战略咨询,是服务,更是引领。起点即巅 峰。甫一成立,明德战略咨询即把推行系统管理作为自己的核心理念,在中国企业界全力倡导系...
日期:12-05
华为鸿蒙OS 4.0曝光 P60原生搭载_华为鸿蒙os公测
昨天下午华为在2022开发者大会中,余承东称HarmonyOS的华为设备已达3.2亿,较去年同期增长113%,鸿蒙智联产品发货量超2.5亿,较去年同期增长212%。随后在会上,华为终端BG首席运营官...
日期:11-06
支付宝数据显示:五一出境游讲地道、讲实惠 人均消费力比2019增长40%
今年五一“黄金周”,国内游开启“人从众”模式;与此同时,重启的出境游,这个五一也水涨船高。据支付宝公布的最新数据显示:2023年五一出境游人均交易笔数已超三年前同期,人均消费...
日期:05-04
淘特上线两款智能新品“微店铺”和“心动搜索”__淘特的产品
11月16日消息,淘特宣布上线两款智能产品:淘特“微店铺”和“心动搜索”。谷歌被制裁据介绍,淘特“微店铺”和“心动搜索”基于淘特搜索逻辑研发出的体验新功能,通过商业创新和交...
日期:11-20
大模型“暴力计算”时代,昇腾如何突围算力之困?
声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:姚 悦,授权转载发布。“这两年内,大模型带来了750倍算力需求的增长,而硬件的算力供给(增长)仅有3倍。”华为昇腾计算...
日期:07-11
下半年手机出货量「2023一季度国内手机出货下滑11%_创十年新低-苹果卖成国内第一」
4月27日讯,据分析机构Canalys(科纳仕)发布的最新数据,今年一季度,中国智能手机出货同比下滑11%,降至6760万台,是2013年以来最低的一季。品牌方面,iphone 14系列持续热销,苹果出货1330...
日期:09-17
预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队_transformer 解码过程
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:丰色,授权转载发布。小羊驼团队的新研究火了。他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,...
日期:11-27