您的位置:首页 > 互联网

大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位?_英伟达建模

发布时间:2024-10-19 10:10:35  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:机器之心,授权转载发布。

OpenAI o1的发布,再次给 AI 领域带来了一场地震。

o1能像人类一样思考复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。

在性能跃升之外,更重要的是,它揭示了大模型进化范式的转变:通过更多的强化学习(训练时计算)和更多的推理(Test-Time 计算),模型可以获得更强大的性能。

这又一次让我们想起 Richard Sutton 在《The Bitter Lesson》中所说的,利用计算能力的一般方法最终是最有效的方法。这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是两种以此方式随意扩展的方法。连山姆・奥特曼也坦言,在未来的一段时间里,新范式进化的曲线会非常陡峭。

从训练 Scaling到推理 Scaling的范式转变,也引发了关于计算资源分配和硬件选择的重新思考。

领域内的研究者和从业者认识到,一方面,更多的计算资源应该投入到推理阶段,另一方面,优化硬件配置以提升大模型推理的效率将是下一阶段的攻关重点。而大模型要进行推理 Scaling,实际上比训练 Scaling 对芯片并行处理能力的要求更高。

GPU 最初设计用于图形渲染,由于其并行处理能力,过去数年一直是以海量数据集训练大模型的热门选择。虽然 GPU 非常适合实现神经网络的训练工作,但在全新的范式下,由于其在延迟、功耗等方面表现不佳, 并不是进行大规模推理的最好选择。

在 GPU 之外,什么是大模型推理的更好选择?现在的 AI 芯片有各种流派:ASIC、FPGA、DSP、Neuromorphic Chip,以及大量 DSA (Domain-specific architectures)芯片。其中,以 SambaNova RDU(Reconfigurable Dataflow Unit)为代表的动态可重构数据流(Dataflow)架构的芯片,能够通过并行处理和高效数据移动来优化性能和效率,近年越来越被认为是一个重要的发展方向。

数倍于 GPU 推理性能

来自 SambaNova 最新一代 RDU SN40L

近日的芯片盛会 Hot Chips 上,围绕大模型的议题比以往任何一届都更加活跃。SambaNova 的最新一代 RDU 产品 SN40L 也在这场大会上引发持续讨论。大家也充分了解到,Sambanova 如何实现大模型的快速推理以及提供 GPU 之外的更优方案。

我们知道,大模型在推理时会逐步生成输出序列的 Token,每生成每一个 token 都会需要把模型的参数从 HBM(High Bandwidth Memory)搬运到片上进行计算。对于利用 HBM 来推理的芯片来说,HBM 的利用率是推理速度的关键,越快从内存中访问数据,就越能缩短处理时间。

SambaNova 的 RDU 既有 GPU10倍以上的片上分布 SRAM,也有适用于需要快速数据传输的大规模计算任务的 HBM。其架构可以自动做到极致的算子融合,达到90% 以上的 HBM 利用率,使得 RDU 对 GPU 有了2-4倍的性能优势。

当前的 AI 推理平台中,SambaNova 是唯一能在 Llama3.1405B 上提供每秒超过100个 Token 推理速度的平台。

如下图所示,每个框都是一个算子。一般来说,多个算子会同时运行,并将数据保存在芯片上以重复使用。但在 RDU 中,整个解码器是一个 Kernel 调用。

这意味着调用开销会显著减少,芯片对数据进行有效工作的时间则增加了。

另外一方面,极致的算子融合使 RDU 能够达到类似 GPU 的批处理能力。GPU 有很好的批处理能力(比如从 BS1到 BS16),可将吞吐量提高12到15倍。比如在上图中,当 decoder0在进行批处理运算时,可以同时从 HBM 读取 decoder1的参数。

SambaNova 的研究者观察到,SN40L 在 Llama3.170B 上可以实现较好的吞吐量 Scaling。

为什么业内普遍看好数据流架构?

SN40L 让我们重新认识了 SambaNova RDU 相对于主流 GPU 的速度优势,而数据流架构的价值也在被越来越多的从业者重新发现。

与 GPU 本质上不同的是,数据流架构通过数据流动来驱动计算过程,而非常规指令流动。在该架构中,程序被表示为一个 Dataflow Graph,其中节点代表计算操作,边代表数据依赖关系。每个节点在其所有输入数据准备好后立即执行,并将结果传递给下游节点。这种架构天然支持并行处理,多个独立的计算操作可以同时执行,从而显著提高了计算性能。

从下图可以看到,SambaNova RDU 的片上空间数据流可以做自动的算子融合 (kernel fusion),与 GPU 的传统 kernel-by-kernel 运行相比,明显消除了大量的内存流量和开销。

近年来,GPU 厂商明显意识到非 Dataflow 架构的短板,并为 GPU 部分引入一些 Dataflow 的功能。例如,从 H100开始,GPU 开始加入分布式共享内存(Distributed Shared Memory) ,也加入了新的张量内存加速器 (Tensor Memory Accelerator) 单元,使其某种程度上模仿了片上空间流水线运行的范式。

但这种程度的改动远远不够,GPU 追赶的速度恐怕已经跟不上 AI 领域推理需求的暴涨。毕竟 GPU 最初不是专门为 AI 而设计的,厂商们很难在不影响主营业务的情况下对基本架构做完全的重新设计,即使增加了上述的修补工作,也无法完全采用高效的数据流架构,这从根本上限制了 GPU 推理的提速。

当前的几家主流 AI 芯片 Startup,都选择了数据流架构。其中来自 SambaNova 的 RDU 展现出了独特优势,也被视为 GPU 的最有力竞争者 。与英伟达相比,Sambanova 最新 Llama3.1模型上生成 token 的性能快了10倍以上,并且通过 cloud.sambanova.ai 公开供开发人员使用。

RDU 能够实现更快的推理速率,更利于大模型的部署。连人工智能专家吴恩达也惊叹 SambaNova 的推理速率:

从最基础的成本上说,由于 Sambanova 的数据流架构 RDU 不仅拥有大的片上 SRAM,同时拥有 HBM 层面的优势,相比于其他的几个单纯依靠片上 SRAM 的数据流企业,用户需要支持大型语言模型的基础设施更少。例如,想在 Llama70B 上推理,对于有些 AI 芯片来说需要五百多个芯片,或者相当于三百多个芯片的4个 wafer ,而 SambaNova 只需要 拥有16个芯片的1个机架。(https://sambanova.ai/blog/sn40l-chip-best-inference-solution)

单桨冲浪板

更进一步说,RDU 所带来推理速度提升的意义不只是体现在效率上,更能体现在质量上,也体现对 AGI 探索的加速上。

基于 OpenAI o1带来的推理 Scaling Law 的启发,人们意识到,在推理端,更多的算力同样会带来更强的智能。因为在同一时间单位内,推理速度越快,就能实现越复杂的推理,就能解锁越多复杂任务,大模型应用的天花板就越高。

这意味着,如果我们想更快实现 AGI,我们本质上最需要建设足够的基础设施并持续降低计算成本。与此同时,计算资源还要更多地向推理侧增加。但在目前的条件下,算力往往是大模型厂商们拓展技术上限的头道难关,即使对于实力雄厚的玩家们也一样。

OpenAI 在发布 o1时似乎就遇到了这个问题。机器学习研究员 Nathan Lambert 在博客《逆向工程 OpenAI 的 o1》中写到,在已发布的基准测试分数和曲线图中,o1preview 并非是能力最强的,但 OpenAI 并未立即发布最强版本的 o1(详情见下图),原因是最强配置过于昂贵,他们没有对应的基础设施支持大规模的部署。

但推理算力需求并非天堑不可跨越。在 o1发布后不久,SambaNova 便在 Hugging Face 上发布了 Llama3.1Instruct-O1演示 。这个项目由 SambaNova 的 SN40L RDU 提供算力支持,用户可与 LLama3.1405B-instruct 模型进行实时对话,体验风驰电掣般类 o1的推理过程。

英伟达建模

项目地址:https://huggingface.co/spaces/sambanovasystems/Llama3.1-Instruct-O1

这意味着,在强大算力的支持下,开源大模型推理能力会不断提升,复现完整 o1甚至触达更高级的智能是指日可待的。

一个新的时代正在开启,当大模型 Scaling Law 的重心从预训练向后训练和推理侧转移,厂商们在算力层面的分配与设计也会更深刻影响大模型领域的竞争格局。而对于 SambaNova 或其他以提供算力和计算基础设施见长的公司来说,接下来会迎来前所未有的机遇。

英伟达的挑战者

在 AI 芯片赛道的诸多初创公司中,SambaNova 是目前估值最高的一家独角兽。

SambaNova 成立于2017年,拥有三位资深的联合创始人:Rodrigo Liang、Kunle Olukotun、Christopher Ré。CEO Rodrigo Liang 毕业于斯坦福大学,在创立 SambaNova 之前,Rodrigo 领导了甲骨文和 Sun Microsystems 的工程团队,负责 SPARC 处理器和 ASIC 的开发。Kunle Olukotun 和 Christopher Ré 都来自斯坦福大学。

英伟达建模

从左到右分别为 Kunle Olukotun、Rodrigo Liang、Christopher Ré。

此外,被誉为芯片风险投资教父的陈立武,自创立之初便作为创始投资人和董事会主席加入 SambaNova,并于2024年5月出任执行主席,以加速和扩大公司的发展。自1987年创立华登国际(Walden International)以来,陈立武投资了许多公司(包括 SambaNova),在推动半导体创新和发展方面发挥了重要作用。

在深度学习引发的第三次人工智能浪潮中,算力对人工智能发展的决定作用已成共识。一系列极具影响力的 AI 研究,如 AlexNet、ResNet 和 Transformer 都是在 GPU 上实现和评估的,这也让英伟达十年来始终处于 AI 硬件市场的主导地位。

不过,时代可能真要变了。正如 Transformer 会迎来新的挑战者,比如 Mamba;英伟达和 GPU 也会迎来下一阶段的强劲竞争者,比如 SambaNova 的 RDU。

o1发布之后,AI 推理市场正处于爆炸式增长的新起点。从 SambaNova 的 RDU 开始,人工智能领域可能正在翻开全新的一页。

apple watch 新表盘


返回网站首页

本文评论
抖音发布治理处罚公告   打击刻意炫富等不良内容_抖音违规处罚通知怎么关闭
  2月26日,抖音安全中心发布治理处罚公告,对一批涉嫌刻意炫富、恶意炒作、有违社会公序良俗的账号进行禁言、封禁等处理。1月以来,抖音安全中心已清理此类视频2862条、音频3...
日期:07-16
微软因安全问题暂时禁止员工使用ChatGPT_微软出现问题
**划重点:**1. 伟彦ph103小米路由器拦截网站人死之前呼出来的气...
日期:11-11
森歌集成灶型号大全「森歌集成灶问鼎德国红点奖!让中国厨电闪耀世界」
近日,备受全球瞩目的2024德国红点奖(Red Dot Winner2024)获奖名单正式揭晓,森歌智能水洗集成灶——鲸洗小灶Z60凭借其极具前瞻性的未来感设计理念与出色实力,成功斩获全球设计界...
日期:04-12
特斯拉自动驾驶可以转弯吗「特斯拉回应监管机构:自动驾驶汽车可采用旋转座椅设计」
IT之家 9 月 4 日消息,特斯拉在向监管机构提交的信息中暗示,其自动驾驶车辆可能会配备可旋转的座椅。自动驾驶技术的出现将为车辆设计带来新的可能性,目前自动驾驶汽车大多基于...
日期:09-06
印度市场中国企业艰难求生,谁将是下一个VIVO?_印度企业在中国有投资吗
【蓝科技观察】在印度这片新兴市场,中国企业面临的不确定性仍在不断加剧。据多家外媒报道,当地时间10月10日,中国智能手机制造商VIVO有员工被印度打击金融犯罪机构拘捕。实际上...
日期:10-16
最强骁龙8 联发科新品今天亮相!_骁龙8芯片
消灭臭虫的妙招联发科最新款芯片天玑9300 于今天正式亮相。博主爆料,这款芯片将搭载在vivo X100s、vivo X100s Pro、iQOO Neo9s Pro、iQOO Pad2 Pro以及未官宣的Redmi K70至...
日期:05-08
俄媒:中国智能手机在俄销量激增_俄罗斯智能手机市场份额
参考消息网8月13日报道 据今日俄罗斯电视台网站报道,俄罗斯《生意人报》11日援引行业数据报道,中国品牌已经挤掉世界最大智能手机销售商苹果和三星,占据了俄罗斯智能手机市场的...
日期:08-15
定制伴侣 小说「和定制的AI伴侣谈恋爱,只聊了3分钟他就承诺永远爱我」
声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:月山橘,授权转载发布。你会选择和AI恋爱吗?据《纽约时报》报道,全球已超过1000万人愿意选择AI恋人作为自己的伴侣。...
日期:07-07
技术驱动高端化,追觅科技618销售额破20亿大关_追觅科技前景
随着2024年“618”大促的圆满落幕,作为智能清洁领域的领导品牌,追觅科技618成绩连续三年再创新高,核心渠道GMV突破20亿,同比增长108%。联发科天玑720相当于什么同时,追觅科技在各...
日期:06-19
腾讯控股:于今日回购113万股,耗资约3.54亿港元(腾讯控股 回购)
查看最新行情 redmi发布会2020  讯 8月22日下午消息,腾讯控股发布公告称,于2022年8月22日回购113万股,回购价格为310.4港元-315.2港元,总耗资约3.54亿港...
日期:08-23
男子滥用7天无理由退货 半年退手机77次!被拒后起诉电商:法院驳回
快科技8月28日消息,近日,一男子滥用七天无理由退货,半年退货手机77次的报道引发热议。根据北京互联网法院的公告显示,2024年4月,原告路先生在某电商平台自营店铺下单购买4台手机,...
日期:08-28
每日优鲜宣布计划调整ADS比率「腾讯每日优鲜占股比例」
DoNews10 月 9 日消息(丁凡)日前,诺基亚C31 国行已通过工信部入网,型号为 TA-1511,诺基亚C31 这款机型同样也已通过 3C 认证和无线电核准,三证齐全,预计该机将会在近期上市。小米笔...
日期:10-17
长期睡不够6小时容易患癌引热议 医生提醒:每晚睡7到9小时最健康
8月26日消息,你每晚的睡眠时间是多久?今日,一则#原来长期睡不够6小时容易患癌#的词条登上微博热搜第二,引起很多网友关注。据央视网报道,对于患癌风险与睡眠之间有怎样联系”的问...
日期:08-26
绿厂OPPO、蓝厂vivo实至名归:两家已完成“绿厂”“蓝厂”商标注册(oppo和vivo为什么称为蓝绿厂手机)
  因品牌Logo颜色为绿色,所以OPPO在手机圈又被称为绿厂。   值得一提的是,在手机圈还有一个“颜色厂”与OPPO齐名,那就是“蓝厂”vivo,其得名原因和OPPO相似。   12月24...
日期:07-17
现在华为6多少钱「Pro符实 曝华为六周卖出160万台Mate60」
来源:中关村在线4399游戏盒秒玩游戏Iphone14概念机华为Mate60 Pro自上市以来备受欢迎,销售火爆且目前仍处于缺货状态。根据研究机构Counterpoint的最新报告显示,在过去六个星期...
日期:10-22
《异形:夺命舰》票房超5.27亿:成内地影史恐怖片票房冠军_异形:致命侵袭
快科技8月27日消息,据灯塔专业版数据,电影《异形:夺命舰》实时票房超5.27亿,已超过《京城81号》成为内地影史恐怖片票房冠军。全球oled产能此外还进入2024暑期档票房前三,折合美...
日期:08-28
抖音电商:过去一年优质内容创作者增长484%「抖音电商5000亿」
2月8日消息,抖音电商披露最新数据,截至去年10月,抖音电商优质内容创作者数量较年初增长484%;平台挖掘优质短视频超147万条,助力超26万名创作者人均流量增长56%,GMV提升5%-10%。抖...
日期:02-09
2021红包拿来!腾讯手机管家推出“红包闹钟”神器_腾讯红包闹钟提醒
  牛年春节将至,一年一度的抢红包大战即将打响,各个商家纷纷开启发红包活动,与此同时,各个家庭群、工作群里的红包也多了起来,不少用户们便想出了各种办法提升抢红包的速度:充...
日期:07-16
欠款明星「欠款艺人遇法官称一分钟筹集20万 网友:这不是有钱吗?」
根据长沙市天心区人民法院的消息,曹某把桑某告上法庭,诉求因股权转让引发的纠纷得到解决。可是,到了开庭日,桑某毫无正当理由未到庭参加审理。华为mate50 5g手机壳因此,法院依法...
日期:02-22
蔚来试点“跨级换电”,长续航电池包日租68元_蔚来换电补贴
DoNews10月28日消息(郭睿琦)据界面新闻,蔚来宣布对“跨级换电”服务进行试点,采用该服务的蔚来车主可通过付费服务升级至更大规模的电池组,按日付费,先用后付。而对于配置更高续航...
日期:11-06