您的位置:首页 > 互联网

kimi课程「Kimi论文自曝推理架构,80%流量都靠它承担」

发布时间:2024-07-05 13:43:25  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西 ,授权转载发布。

月之暗面和清华KVCache.ai团队的最新论文,首次揭秘了Kimi背后的推理架构!

要知道Kimi是国产大模型的当红炸子鸡,火到可以说从来没缺过流量,甚至还经常出现过载。

而随着论文的发布,这泼天的流量到底如何被Kimi接住的问题,也有了答案。

kimi知乎

Kimi背后的推理架构名叫Mooncake(月饼),主要特点是采取了分离式的设计方案。

而且,Mooncake在设计之时就考虑了可能出现的大流量场景,并针对这种情况专门研发。

热度病症状

在模拟场景下,Mooncake最高能带来525%的吞吐量增长,实际场景中也能多处理75%请求。

另据月之暗面工程副总裁许欣然的一篇知乎文章介绍,Kimi有80%以上的流量,都是由该系统承接。

从KV缓存出发,建造分布式系统

整个Mooncake系统设计的核心,是围绕着KV缓存展开的。

(KV缓存用于存储键-值对(Key-Value Pairs),主要优势在于可以简单高效地访问和检索数据,在大模型当中可以提高推理速度并减少计算资源消耗。)

之所以这样做,是因为团队预计KV缓存的容量会长期保持高位,因此围绕KV缓存进行优化十分必要。

从结构上看,Mooncake由全局调度器(Conductor)、Prefill节点集群、Decoding节点集群和分布式KVCache池几部分组成,另外还有RDMA通信组件(Messenger)。

其中全局调度器是用户请求到达系统后的第一站,它负责接收请求并根据KV缓存分布和负载情况,将请求调度到Prefill和Decoding节点。

调度器在调度时需要综合考虑KV缓存的复用长度、负载均衡等因素,实现KV缓存复用的最大化。

具体到Mooncake,它采用了一种启发式的自动热点迁移策略,可以在不需要精确预测未来访问的情况下自动复制热点KV缓存块。

同时,这种动态复制热点KV缓存块的方式,也是实现均衡负载的一种重要途径。

实验结果表明,与随机调度和负载均衡调度相比,Mooncake的调度策略可以显著降低TTFT(Time To First Token,首个Token延迟),提高系统性能。

完成调度之后,任务会分别交由Prefill和Decoding节点进行运算。

1吨天然气等于多少立方米蒸汽

Prefill节点接收到调度器转发过来的请求后,会从KV缓存池中读取缓存,执行预计算并生成新的KV缓存。

对于长上下文请求,Mooncake还会分块流水并行的方式,使用多个节点并行处理来降低延迟。

而Decoding节点除了接收调度器发来的请求外,还会收到Prefill阶段生成的KV缓存,节点会对这些缓存执行解码并生成最终结果。

这当中,大容量、高性能的KV缓存存储由缓存池提供;RDMA通信组件则凭借其高带宽、低延迟的优势,负责在不同节点之间的KV缓存传输。

除了采取以KV缓存为中心的工作流程外,Mooncake还有另一个重要特点——分离式的架构。

采取分离式架构的重要因素之一,是在于Prefill和Decoding两个阶段的计算特性差异很大。

具体来说,它们分别要对TTFT和TBT(Time Between Tokens,Token间延迟)负责。

这就导致了两者在计算复杂度、内存访问方式、并行粒度和对延迟的敏感度上都存在差异:

所以,月之暗面团队对GPU集群也进行了相应的拆分,以便将它们分别部署在不同节点集群上,实现资源隔离和专门优化。

另外,Mooncake中的KV缓存池也是分布式的,同时充分利用了GPU集群中空闲的CPU、DRAM和SSD资源,实现了大容量、高带宽的KV缓存存储和传输,同时也减少了闲置资源的浪费。

提前预测负载,及时拒绝超量请求

不过,即使Mooncake采用了高效的分离架构,但实际环境中的超大流量,对系统仍然是一个考验。

对此,作者也提出了新的应对策略。

在过载场景下,调度的关键是决定是否接受新的请求。

由于Mooncake采用的是分离式架构,可以采取早期拒绝策略,在Prefill阶段就根据Decoding节点的负载情况,提前拒绝请求。

Mooncake使用TTFT和TBT的SLO(Service Level Objective,服务等级目标)满足情况作为负载的度量指标。

具体的SLO要求是TTFT的90分位值(P90)不超过单个请求在空载条件下处理时间的10倍,TBT的P90值不超过5倍。

这种早期拒绝策略可以显著减少无效的Prefill计算,提高资源利用率,但同时也带来了新的问题——Prefill和Decoding节点负载的波动,导致资源利用率下降、影响系统性能。

kimi的事件

这是由于早期拒绝策略中,系统做出请求拒绝的决策时存在滞后性,如下图所示:

  • 在阶段1,Prefill节点和Decoding节点的负载都较低,此时调度器会持续接受新的请求,直到Prefill节点的负载达到上限。

  • 进入阶段2后,Rrefill节点处理的请求开始进入Decoding节点,导致其负载快速上升。当Decoding节点的负载超过阈值后调度器开始拒绝新的请求,但此时Prefill节点的负载仍然很高。

  • 到了阶段3,由于调度器拒绝新请求,Prefill节点的负载开始下降。但此前积压的请求正在Decoding阶段处理,节点的负载仍然很高。

  • 最后是阶段4,Decoding节点的负载开始下降,因为前面的请求都处理完成,而新的请求又被拒绝了。这时调度器再次开始接受新请求,Prefill节点的负载又开始上升。

  • 之后,这个过程会周期性地重复,导致Prefill和Decoding节点的负载出现反相位的波动。

针对这一问题,月之暗面团队对这种简单的早期拒绝策略进行了修正,提出了基于预测的早期拒绝策略,从而降低节点负载的波动。

这种策略的核心思想是对一段时间后的Decoding节点负载进行预测,并基于预测结果决定是否拒绝请求。

预测可以在请求级别和系统级别两个层面进行,请求级别的预测比较困难,因为要预测单个请求的执行时间;系统级别的预测相对容易一些,只需要预测整体的负载情况。

Mooncake采用的是一种简化的系统级别预测方法,假设每个请求的执行时间服从某个固定分布,据此预测未来一段时间内的负载情况。

实验结果表明,这种基于预测的早期拒绝策略,可以有效缓解负载波动问题。

最终,端到端性能评估结果表明,Mooncake的架构设计和优化策略,有效提高了推理服务性能,尤其在长上下文和真实场景下优势更加显著。

在ArXiv Summarization和L-Eval数据集上,Mooncake的吞吐量比baseline方法vLLM分别提高了20%和40%。

在模拟数据集上,Mooncake的吞吐量最高可达525%,在真实数据集上也可以比vLLM多处理约75%的请求。

过载场景下的性能评估结果则显示,使用基于预测的早期拒绝策略时,拒绝的请求数量从baseline的4183个减少到了3589个,说明系统的请求处理能力得到了提高。

针对未来的发展,论文的另一位作者、清华大学计算机系助理教授章明星表示,从目前的趋势来看,大模型服务的负载会愈发的复杂和多元化,调度会越来越复杂,也会越来越重要。

而对于月之暗面的发展方向,则是由许欣然做了解答——分布式策略的实施,也意味着未来月之暗面的整个系统,将往“算力/$”和“带宽/$”两个方向独立发展,从而对硬件优化更加友好。

激光电视为何更护眼?专家技术解读

论文地址:

https://arxiv.org/pdf/2407.00079

GitHub:

https://github.com/kvcache-ai/Mooncake

参考链接:

[1]https://zhuanlan.zhihu.com/p/705910725

[2]https://zhuanlan.zhihu.com/p/706204757

—完—


返回网站首页

本文评论
快手打击美化服刑收获等五大不良炒作行为 处置视频1500+条
1月30日 消息:昨日晚间,快手发布了关于打击不良炒作行为的公告,截至目前 共处置视频1500余条,解散相关话题52个。2021国产旗舰机哪些值得入手哪吒之魔童降世的票房突破了几亿公...
日期:01-30
中冶赛迪信息李强:愿与合作伙伴深入互动,实现价值落地
中冶赛迪信息李强:愿与合作伙伴深入互动,实现价值落地 通信产业网|2023-12-26 09:50:24作者:通文来源:通文【通信产业网讯】12月20日,在2023年工业互联网金紫竹峰会(第三届)上,中...
日期:12-27
小米汽车备案xiaomiev.com网站,或将2024上半年上市
凤凰网科技讯 8月23日,天眼查App显示,近日,小米汽车科技有限公司登记备案“xiaomiev.com”网站域名。该公司成立于2021年11月,法定代表人为雷军,注册资本10亿人民币,经营范围包括...
日期:08-24
出考场考生为躲避采访蛇形走位 网友:看这走位至少666起步_蛇形走位表情包
6月10日消息,据媒体报道,在河南郑州一考点外,第一个走出考场的考生蛇形走位躲避采访。有网友留言:看这走位至少666起步。理想p98-25与这位考生躲避采访不同,不少考生不惧接受媒体...
日期:06-11
全网都被刷屏的“汤圆馅饺子”,原来出自有吃必应韩小浪
  这个冬至,一道“话题料理”在各大社交平台火了,引起全网热议,登上了热搜,那就是南北方人都齐齐打call的汤圆馅饺子!   僵持多年的南北两派“饺子vs汤圆”pk大赛,终于在今...
日期:03-13
“我在AI”APP赋能生活:人工智能助力普通人实现更多可能
人工智能取代人类?这个科幻小说当中的预言,似乎并不是100%完全都属于夸张成分。或许真正能够在未来某个时刻发,发生在现实生活当中。确实,AI人工智能技术的诞生与发展,成功替代了...
日期:05-11
Vision Pro将采用SK海力士提供的定制低延迟DRAM芯片 Apple_海力士 16nm mlc
据《韩国先驱报》报道,Apple Vision Pro头戴式设备将使用一种新型的动态随机存取存储器,或DRAM,这种存储器是为了支持Apple的R1输入处理芯片而定制设计的。韩夏 工信部 总工程...
日期:09-21
经营驱动增长,百度智能小程序创业经营大赛正式启动_智慧经营小程序
  大众创业,万众创新正在成为时代潮流。8月15日,百度智能小程序以“智行 · 创想”为主题正式启动创业经营大赛。大赛将聚焦创新服务、创新项目,与创业者一起探索百度智能小...
日期:07-17
Pixel手机有望获得电池健康功能 可提供电池延寿解决方案「pixel c电池容量」
Google推出了一项新功能,Pixel智能手机用户现在可以更好地了解他们的手机何时应该维修新电池了。与苹果类似,电池健康功能显示某些指标,帮助用户最大限度地利用他们的设备。光...
日期:10-07
ChatGPT再进化,全工具All in One,网友:多少创业项目死于今天_chatting tools
声明:本文来自于微信公众号 量子位 |(ID:QbitAI),作者:明敏,授权转载发布。一夜之间ChatGPT悄悄大更新,一众创业项目要被创飞了!现在,它不仅支持上传PDF等各种你想分析的文件。iqo...
日期:10-30
联想a3000平板电脑「联想a3000h平板电脑」
是一款经典的安卓平板电脑,具有高性能和时尚设计。该平板电脑是联想公司推出的一款中端设备,拥有良好的性价比,深受消费者喜爱。下面就来一起看看这款平板电脑的详细情况。外观...
日期:05-30
百公里耗油4.88升 领克01 EM-F混动正式发布:18.80万元起售(领克01混动油耗实测)
  6月10日,领克01 LYNK E-MOTIVE智能电混全球首秀,领克01 EM-F车型(油电混动)完成了全球首秀,并开启了预售,共推出三款车型,价格为18.80-21.00万元。  该车的外观基本上延...
日期:07-18
小米公司电动汽车「雷军亲自带队!小米汽车真的要来了:新能源汽车公司已成立」
快科技10月30日消息,近日,上海小米景明科技有限公司成立,经营范围含移动终端设备销售、电子产品销售、新能源汽车整车销售、交通及公共管理用标牌销售、二手车经纪、洗车服务、...
日期:10-31
小米汽车真的要来了!微博网友“小米汽车”昵称被收回_小米汽车叫啥
快科技9月21日消息,看来小米汽车真的要来了!就在今天,有博主拉面师傅Design”发布微博称:小米汽车”微博名字昨天被收回了,看来要进入宣发节奏了?大家不要误会这个博主,据他描述,不...
日期:09-21
iPhone 14首发!苹果宣布卫星通信服务免费延长一年_苹果卫星通信系统
快科技11月16日消息,据苹果官网消息,iPhone 14系列首发的卫星通信服务将免费延长一年时间。苹果表示,自一年前推出以来,卫星通信这项开创性的服务在全球范围内产生了重大影响。...
日期:11-16
苹果推出Apple Watch 2023兔年春节活动挑战赛
IT之家 1 月 18 日消息,苹果正计划上线 2023 年新的 Apple Watch 活动挑战赛,以纪念兔年春节、黑人历史月(团结月)和心脏月,所有这些活动都在 1 月和 2 月举行。华为p20pro降价ip...
日期:01-19
GPTs Hunter国内版网站地址入口  GPTs聚合网站有哪些_gp官网下载
OpenAI大会的发布激发了人们对AIGC创作的热情。在刚发布的72小时里,创作者们积极创建了大量创意GPT分身,截至11月10日19点,第三方GPT商店GPTsHunter中的自定义GPT数量已经超过...
日期:11-14
马斯克宣布用chia「马斯克再出争议新规,30 天后付费用户才能使用 TweetDeck」
IT之家 7 月 4 日消息,马斯克执掌推特之后,制定了一系列颇具争议的规则,限制未认证账户每天只能阅读 600 条推文的风波尚未平息,马斯克再出新规:下月起 Twitter Blue 用户才能使...
日期:07-04
不念过往,无惧将来!2021联想与您一起迎福斩棘向上而行(2021不念过往不惧将来)
  近日,由联想消费发布的短篇TVC《迎福斩棘,向上而行》,引发全网热议。在这短短的x分钟视频里,联想用象征着美好寓意的“福”字,为人们描绘出2021的无尽可能,同时也将全...
日期:07-16
万兴科技旗下Wondershare Filmora和万兴PDF登陆微软WIN11商店
  近日,万兴科技(300624.SZ)旗下明星产品Wondershare Filmora和万兴PDF正式登陆微软应用商店Microsoft Store,成为首批受邀入驻Win11商店的应用。此次一同入驻 Win11商店的...
日期:02-09