您的位置:首页 > 互联网

超强大模型DEJAVU 推理速度是FasterTransformer的2倍

发布时间:2023-11-01 19:05:38  来源:互联网     背景:

要点:

  • DEJAVU 是一个系统,采用一种经济高效的算法,结合异步和硬件感知实施,动态预测每一层的上下文稀疏性,从而提高大型语言模型(LLM)的推断速度。

  • 研究团队通过引入上下文稀疏性的概念,动态修剪特定的注意力头和MLP参数,而无需改变预训练模型,以提高LLM在具有严格延迟约束的应用中的效率。

  • DEJAVU 通过硬件感知的稀疏矩阵乘法实施,显著降低了开源LLM(如OPT-175B)的延迟,超过了Nvidia的FasterTransformer库,并在小批量大小下超过了广泛使用的Hugging Face实现。

11月1日 消息:大型语言模型(LLM),如GPT-3、PaLM和OPT,以其卓越的性能和能够在上下文中学习的能力,令人叹为观止。然而,它们在推断时的高成本是它们的显著缺点。为了解决这一挑战,研究团队提出了DEJAVU系统,该系统采用了一种经济高效的算法,结合异步和硬件感知的实施,动态预测每一层的上下文稀疏性,从而提高LLM的推断速度。

为了定义适用于LLM的理想稀疏性,研究团队提出了三个关键标准:不需要模型重新训练、保持质量和上下文学习能力以及提高现代硬件上的时钟时间速度。为了满足这些要求,他们引入了上下文稀疏性的概念,该概念包括产生与给定输入几乎相同结果的小型、依赖于输入的注意力头和MLP参数的子集,而无需完全模型。DEJAVU利用上下文稀疏性,使LLM在具有严格延迟约束的应用中更加高效。

lg卷轴屏手机

五笔打字法自学的方法视频教程

科大讯飞公司产品

idc印度手机2018年出货数据

具体来说,研究人员提出了一种低成本的、基于学习的算法,用于实时预测稀疏性。给定特定层的输入,该算法预测后续层中的相关注意力头或MLP参数的子集,并仅为计算加载它们。他们还引入了一种异步预测器,类似于经典的分支预测器,以减少顺序开销。通过引入硬件感知的稀疏矩阵乘法实施,DEJAVU显著降低了开源LLM(如OPT-175B)的延迟。它在端到端延迟上超过了Nvidia的FasterTransformer库,而在小批量大小下也超过了广泛使用的Hugging Face实现。

这项研究表明,DEJAVU有效地利用了异步前瞻预测器和硬件高效稀疏性,以提高LLM的时钟时间推断。这些有前途的实验结果突显了上下文稀疏性在显著减少推断延迟方面的潜力,相较于现有模型,这项研究使LLM更容易被更广泛的AI社区使用,可能开启令人兴奋的新的AI应用。


返回网站首页

本文评论
贾乃亮回应“与趣店预制菜合作”:已解约,无后续任何合作
7月26日下午,演员贾乃亮发布声明称,基于近期趣店品牌历史背景的相关舆情,我和大家一样在密切关注,看到这些负面信息,本人深感愧疚和歉意。关于趣店的品牌合作,没有背调清楚品牌前...
日期:07-31
iPhone 15机皇升级8GB 2TB 苹果太会省钱:内存价格已跌50%
快科技8月27日消息,再过半个月苹果就要发布iPhone 15系列了,这一代不论外观还是配置变化都很大,全系升级灵动岛,标配USBC接口、4800万像素主摄,而且硬件也升级了,万年6GB内存淘汰,i...
日期:08-27
iphone12pro双11有优惠吗「iPhone14Pro双11优惠!幅度超过500」
中关村在线消息:10月28日,据相关爆料,苹果今年的双11优惠政策已经公布,28号0点后可以在天猫双十一的苹果会场领到惊喜券,这次双11活动优惠最大的产品是iPhone13系列,最高优惠700元...
日期:10-31
英国将举办世界首届人工智能安全峰会 力争成为全球 AI 监管机构总部所在地
6月9日消息:英国首相里希・苏纳克(Rishi Sunak)在访问华盛顿期间宣布世界首届人工智能安全峰会,旨在使英国在限制潜在末日风险方面发挥领导作用。世界上最可怕的独角兽在他的两...
日期:06-09
小米3外观怎么区分联通和移动「小米3外观」
小米3是小米科技于2013年7月发布的一款旗舰智能手机。它拥有华丽的外观设计,成为当时市场上最具代表性的产品之一。三星618优惠券蜜芽这个公司怎么样小米3的外观设计采用了极...
日期:05-29
视频网站忙“不务正业”:内容自制还是他制
  对于视频网站,日子还得照样过。   哪怕外面风大浪急。2010年12月8日优酷在美上市。无论是舍创业板而出海上市,还是其后三天股价的强势上扬,从每股12.8元的发行价一路追...
日期:07-26
鹿晗同款卤煮店2小时卖出1200份:粉丝疯狂打卡
6月28日消息,微博话题鹿晗同款卤煮店2小时卖出1200份”上了热搜榜。据媒体报道,上周末鹿晗在五棵松体育场的演唱会上,喊话歌迷问吃卤煮了吗,第二天一早,鹿晗曾经就餐过的门框胡同...
日期:06-28
EA拟裁员6%减少办公空间 游戏行业也衰退?_ea游戏公司有哪些游戏
3月30日消息,游戏厂商艺电(EA.US)宣布将裁员6%,相当于约800名公司员工,并减少办公空间,这也是首家披露大规模裁员的大型游戏厂商。艺电首席执行官安德鲁·威尔逊表示,随着我们更...
日期:10-04
微博:信息“包产到户”的改革
  随着7月郭美美红十字事件、动车事故两役,微博的重要性得到了普遍承认,而对这种新媒体的质疑也随之而来。一方面,打开传统媒体,无处不微博,各机构和各政府发言人在微博上相当...
日期:07-22
私人订制版ChatGPT——askwise来了 可无上限批量处理文档
4月24日 消息:Askwise是一款能根据自己知识库定制GPT的AI应用,能处理各种格式的本地文档,提供无上限批量处理,支持双语提问和跨语言回答。小型彗星撞地球Askwise的优点在于文档...
日期:04-24
笔记本性能排行_笔记本性能排行榜前十名
随着物联网时代的到来,电脑已经成为了人们生活中必不可少的工具,而作为电脑的一种,笔记本电脑比起传统的台式机有着更具灵活性、更便携的特点。对于消费者而言,在购买笔记本电脑...
日期:06-05
水母智能:AI,让每一件物品都值得被设计(水母智能科技)
  一直以来,人工智能似乎总在被误解。一些科幻场景中,AI被塑造成代替人类的机器大脑,而当下被技术和舆论广泛关注的人工智能,实则是致力于在各行各业通过输出行业理解来简化...
日期:09-27
11月7日发布!iQOO 12系列将成为首批搭载骁龙8 Gen3的机型_iqoo8g和12g性价比
昨天,高通发布了第三代骁龙8移动平台(骁龙8 Gen3),随后各家手机厂商也相继官宣了搭载这一芯片的旗舰手机。今天上午,iQOO宣布其iQOO 12系列手机将成为首批搭载骁龙8 Gen3的机型,并...
日期:10-25
新型冠状病毒又出现新病毒_一系列电脑版“新型冠状病毒”正在悄然蔓延
  2020年1月29日,奇安信发布紧急病毒通报,奇安信病毒响应中心和奇安信CERT的技术人员发现多起利用新型冠状病毒肺炎疫情相关热词开展的攻击行动。他们监测到一些黑客组织正...
日期:07-02
奈飞股价涨了多少倍「亏损10亿美元!奈飞较5月低点反弹50%,空头遭重创」
  最近几个月做空奈飞(NFLX.US)的投资者损失惨重。酷睿i9 12900K  这家流媒体巨头的股价较5月份的低点飙升了50%,这主要得益于其推出有助于重振增长的新功能、季度业绩好...
日期:09-27
苹果秋季发布会9月13日举行 Pro系列将配备更高倍光学变焦镜头
苹果公司将于9月13日上午1点举行2023年秋季新品发布会,发布会将在加利福尼亚州库比蒂诺的苹果总部举行。预计苹果将发布新一代iPhone手机,包括6.1英寸的iPhone15、6.7英寸的iP...
日期:08-30
印度人乞讨「印度男子靠乞讨坐拥600多万资产:有技巧行乞 日入2千卢比以上」
乞丐本是一无所有的人,最后的生存职业”,但如果足够有毅力,乞讨也有机会把自己变成百万富翁。任正非得子女日前,据报道,印度男子巴拉特贾恩 (Bharat Jain)常年在孟买街头乞讨,现...
日期:07-10
网剧发行需获批“许可证”!优爱腾的好日子到头了?「网剧播出需要发行许可证呢」
  文 丨 新浪财经;周文猛  国产网络剧片的发行政策变了,由原来的备案登记制,变成了行政许可制。  几天前,国家广播电视总局办公厅发布《关于国产网络剧片发行许可服务管...
日期:01-04
100个上榜!2023年度中小企业特色产业集群名单公布_2021 中小企业
通信世界网消息(CWW)近日,工业和信息化部公布了《2023年度中小企业特色产业集群名单》,北京市丰台区轨道交通智能控制产业集群等100个集群榜上有名。根据工业和信息化部要求,集群...
日期:10-18
我国发布首份汽车标准必要专利研究报告,面向智能网联汽车知识产权问题
7 月 24 日消息,据央视新闻今日报道,在 7 月 23 日举行的 2023 中国汽车创新大会上,中汽研、北京大学联合发布了《汽车标准必要专利蓝皮书》,为我国首份该领域的系统性研究报告...
日期:07-24