您的位置:首页 > 互联网

研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

发布时间:2023-12-20 04:54:16  来源:互联网     背景:

要点:

  • 密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架,利用管道模板的概念,提供了快速而有保障的故障恢复,避免训练吞吐量下降。

  • Oobleck的设计核心是管道模板,这是针对给定节点数量的训练管道执行的规范,用于实例化管道副本。这些模板在逻辑上等效(可以一起用于训练相同的模型),但在物理上是异构的(使用不同数量的节点),从而在保障容错性的同时提供高吞吐量和快速恢复。

  • 与现有框架相比,Oobleck是第一个利用大型语言模型固有冗余进行容错的框架。通过使用预生成的异构模板,它提供了高吞吐量、最大利用率、有保障的容错性以及在故障恢复时避免检查点或重算方法的开销。

苹果公司起诉美国

12月19日 消息:随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。该框架采用管道模板的概念,为大型模型的预训练提供了快速而可靠的故障恢复机制。

项目地址:https://github.com/SymbioticLab/Oobleck

传统框架在大型语言模型预训练时缺乏系统支持,而Oobleck通过引入管道模板的概念创新性地解决了这一问题。这些管道模板在逻辑上等效,但在物理上是异构的,允许在训练时利用固有的冗余来提高容错性。相比于现有方法,Oobleck的优势在于其高吞吐量、最大利用率以及对故障的有保障快速恢复,而无需使用检查点或重算方法。

Oobleck的执行引擎在训练作业开始时,根据最大同时容忍的故障数量实例化至少f+1个异构管道。在故障发生时,框架通过简单地从预计算的管道模板重新实例化管道来进行恢复,避免了在运行时寻找新的最佳配置的繁琐分析。因此,使用预生成的管道模板总能够保证Oobleck从f个或更少的故障中恢复。

这种管道模板的引入不仅是对问题发生后缓慢处理或对所有可能情景进行规划的一种平衡,而且为分布式计算系统中的高效而有效的弹性提供了示范。未来,研究人员计划将管道模板应用于改进各种生成式人工智能应用的弹性,首先从推理服务系统开始。

总的来说,Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。


返回网站首页

本文评论
iPhone14还没捂热,15系列三大升级曝光,值得再等一年_iphone12更新ios15怎么样
从9月16日iPhone14首销到今天,不少用户都已经用上了机器,随之而来的是对灵动岛设计的吐槽,对手机发热量大的质疑等。而当很多人还没捂热iPhone14的时候,网上又传来了iPhone15系...
日期:09-28
chatgpt是什么?chatgpt怎么用?(附Chat GPT注册教程)
最近,一款人工智能聊天应用ChatGPT引起了马斯克的关注,他表达了对ChatGPT的肯定,认为“我们离强大到危险的AI不远了”、“厉害的吓人”。这款应用一经推出,立刻引起了大家的兴趣...
日期:12-12
与洪水抗衡「与洪水赛跑的40小时」
与洪水赛跑的40小时 通信产业网|2023-08-11 10:08:16作者:程唯珈来源:通信产业网【通信产业网讯】涿州市荷花路联通营业厅的存量还够撑一天。说是存量,也就是一桶矿泉水。从7月...
日期:08-11
360儿童“小小摄影家”大赛开幕 丰富奖品让小朋友们很心动(全国少儿摄影大赛)
  近日,在集高通4G全网通、IPX8级别防水、高清双摄等给力配置于一体的360儿童电话手表P1 Pro新品上市之际,360儿童“全球‘小小摄影家’大赛”也正式开幕,宠物、风景、搞笑...
日期:07-15
讨论关键AI问题 谷歌微软等公司CEO将前往白宫参会_微软谷歌公司现状
新浪科技讯 北京时间5月3日早间消息,据报道,谷歌、微软、OpenAI和Anthropic的首席执行官将于当地时间周四与美国副总统卡玛拉·哈里斯(Kamala Harris)和高级政府官员会面,讨论关...
日期:09-30
苹果公司残疾人「苹果公司加入改善残疾用户语音识别的项目」
伊利诺伊大学(UIUC)正在与苹果和其他科技巨头合作开展"语音无障碍项目",该项目旨在为具有语音模式和残疾的人改进目前版本难以理解的语音识别系统。虽然经常被嘲笑误听用户的请...
日期:10-05
投资超2.5亿 电影《红海行动2》正式启动:比肩《战狼》的动作大片
在第一部大获成功之后,博纳影业也一直在筹备《红海行动2》电影,今天该公司正式启动了这个项目,此前公布的文件显示其投资额高达2.5亿元。三星g8508s《红海行动2》依然有导演林...
日期:06-11
ddr4 4800评测_DDR5-4800 内存跑分曝光:相比 DDR4 速度略慢,但延迟更低
  8 月 15 日消息 目前已有多家内存条品牌宣布推出 DDR5 内存,这也预示着英特尔第 12 代酷睿处理器预计将正式发布。关于全新规格内存的性能,根据外媒 tomshardware 消息,今...
日期:07-17
苹果手机怎么防盗_苹果手机怎么防盗追踪
苹果手机如今已成为我们生活中不可或缺的一部分,里面存储的大量个人信息,登录记录,甚至是银行卡信息都是让我们生活如此便捷的根据。而随着手机的越来越高的普及率,手机被盗或失...
日期:05-29
华为mate60官方首曝「现货速发!华为Mate 60 Pro到手价7999元起」
华为Mate 60 Pro现在正在进行优惠活动,售价7999元起。Mate 60 Pro继承了华为Mate系列一贯的设计风格,提供了四种配色选择。机身采用了玄武架构制造,具备第二代昆仑玻璃和坚韧的...
日期:10-16
苹果印度制造质量怎么样「15的首发市场之一 「报道称印度将成为苹果iPhone」」
9 月 5 日消息,根据金融时报报道,印度市场往年发布 iPhone 都会延后 1 个月左右,不过今年将成为苹果 iPhone 15 的首发市场之一。报道称位于印度东南部城市金奈(Chennai)的富士康...
日期:09-11
滴滴:端午假期155万用户下载滴滴出行App_2020滴滴出行app下载
6月25日消息,滴滴在假期3天的订单同比2022年涨幅近六成。自端午假期前一天开始至假期结束,超155万用户下载滴滴出行App,超5000万人领取使用滴滴567、异地商旅等出行优惠。苹果...
日期:06-25
网络信息安全助广汽集团发展如“虎”添翼
  动联以统一身份认证平台助珠三角支柱产业平滑快速发展   (联合电讯社/上海)--广州汽车集团股份有限公司(简称广汽集团)是国内汽车行业领军式企业之一,创立于2005年6月28...
日期:07-29
一男性游客被指逼哭工作人员 上海迪士尼:涉事者被终身禁入「上海迪斯尼男子」
4月19日,有网友爆料称上海迪士尼园区内,一名男性游客在非吸烟区内抽烟,被工作人员提醒后反而发怒,要求工作人员道歉,最终工作人员被逼哭和道歉随后离开,男子依然穷追不舍,此事引发...
日期:04-20
iPhone 14再翻车!车祸检测屡次误报「iPhone12大规模翻车」
今年新发布的iPhone 14有一个亮眼功能是结合iOS 16系统增加的车祸监控的功能。此前的新闻中,有车主驾车撞树触发了车祸检测,iPhone 14也表现优秀,不过从新的消息来看,iPhone 14...
日期:10-12
华为mate40pro 5g发售价「5G版华为Mate 40 Pro官翻上架:带1年质保 价格惊喜」
华为Mate 40 Pro 5G的官翻版终于上架了,在前不久就传出了官翻的消息,而目前上架的有两个版本,8GB+128G只有亮黑色版本,售价6199元;8GB+256G有亮黑和釉白两种可选,最终售价6999元。...
日期:11-14
2019年网络安全大事件_2019年业务安全领域六大大事件
  什么是业务安全?业务安全就是防范业务风险的安全。而业务风险就是业务中产生的各类风险,主要是指不法分子利用业务规则漏洞和技术手段,进行薅羊毛、刷单炒信、数据爬取、...
日期:10-24
收到北汽新能源开发定点通知-将供应智能座舱显示产品 光峰科技
5月24日晚间,光峰科技(688007.SH)发布公告,于近日收到北京新能源汽车股份有限公司的开发定点通知,公司将成为北汽新能源的车载光学解决方案供应商,为其供应智能座舱显示产品。光峰...
日期:09-26
反垄断之后又遭“未保”风波,腾讯Q2财报将迎“最难挑战”?_腾讯Q2财报
  腾讯股价上一次在500港元下方还是一年前,不同的是,那时腾讯股价正在一波持续两年的阶梯型上涨中;而这次,腾讯在短短半年的时间内,出现了上市后罕见的断崖式下跌。   ...
日期:06-09
马斯克 人工智能芯片多久完成「被国内车主吐槽是期货-马斯克_FSD是迄今最先进现实世界人工智能」
5月1日消息,特斯拉CEO马斯克曾多次吹爆特斯拉FSD(完全自动驾驶“Full Self-Drive”)功能“令人惊叹”,今日,马斯克又在推特上发文表示,“特斯拉FSD自动驾驶是迄今为止最先进的现实...
日期:09-30