您的位置:首页 > 互联网

16384 块 H100 GPU 训练集群每 3 小时“罢工”一次 Meta-训练 Llama 3 遭遇频繁故障

发布时间:2024-07-29 16:35:03  来源:互联网     背景:

Meta 发布的一份研究报告显示,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta 团队还是保持了 90% 以上的有效训练时间。

工信部对5g网络建设的文件

IT之家注意到,在为期 54 天的预训练中,共出现了 466 次工作中断,其中 47 次是计划中断,419 次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。 GPU 问题是导致故障的主要原因,占意外中断的 58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。

在 419 个意外中断中,148 个(30.1%)是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 个(17.2%)是由 GPU 的 HBM3 内存故障引起的。有趣的是,54 天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

为提高效率,Meta 团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta 还关注到了环境因素的影响,如午间温度波动对 GPU 性能的轻微影响,以及巨量 GPU 同时运行对数据中心电网的巨大压力。

然而,随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例,故障率可能会成倍增长,给未来的 AI 训练带来更大的挑战。


返回网站首页

本文评论
英特尔3d设置在哪「英特尔实现3D先进封装技术的大规模量产」
(原标题:英特尔实现3D先进封装技术的大规模量产) iPhone12改进版 英特尔宣布已实现基于业界领先的半导体封装解决方案的大规模...
日期:01-25
周处除三害的故事原文「央视发布AI版短剧:《周处除三害》正式上线」
快科技3月28日消息,据央视频官微,将经典故事转化为生动短剧的《AI看典籍》第一集《周处除三害》在博鳌论坛首发。据了解,该剧由总台央视频原创AI团队领衔打造,创新采用AI技术将...
日期:03-28
腾讯成立职业技能培训学校公司_腾讯培训岗位
2 月 6 日讯:天眼查App显示,近日,深圳市腾讯职业技能培训学校有限责任公司成立,注册资本 100 万元,该公司由深圳市腾讯教育科技有限公司全资持股。vr新设备...
日期:02-06
旗舰同款 性能凉爽释放 「OPPO」-K11搭载高性能石墨散热系统「oppok1散热怎么样」
日前OPPO官方宣布,将于7月25日14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位...
日期:09-10
315曝光头盔厂家用回收料!2022年头盔相关企业行政处罚超1200条「头盔回收可以做成什么」
3月15日 消息:在今日晚间的315晚会上,一些电动自行车头盔质量不过关,导致消费者受伤的事故被曝光。一些头盔厂家为了节约成本,使用回收料等劣质材料进行生产。共有16款不符合新...
日期:03-16
你电脑上有“360”么?Win系统用户使用安全软件比例达macOS用户两倍「电脑有360安全卫士还有必要用电脑管家吗」
快科技6月29日消息,近日,根据网络安全机构All About Cookie公布的一项调查结果,在1000名受访者中,Windows系统用户使用安全软件的比例是macOS用户的两倍左右。具体俩说,在所有受...
日期:06-29
XSKY SDS V4.2重磅发布,为数据基础设施注入“免疫力”
  在不确定性中寻找确定性。   01抵抗不确定性的“免疫力”   这次疫情“黑天鹅”,让许多企业用户开始意识到,系统的数字化能力是抵御包括疫情在内的诸多不确定性风...
日期:09-26
百度营销发布 AI Native 营销平台“轻舸”「百度轻客服」
9月9日 消息:9月7日,百度营销发布全球首个 AI Native 营销平台“轻舸”,通过生成式 AI 贯通营销方案表达和广告投放优化,预期可以将广告投放转化率提升超20%。mixfold手机测评...
日期:09-09
2020年快递服务满意度调查「2023第二季度快递满意度出炉:第一不出意料」
7月28日,国家邮政局发布2023年第二季度快递服务满意度调查和时限准时率测试结果。顺丰品牌公众满意度和72小时准时率均以高分位列首位。Meta元宇宙据了解,2023年监测对象包括9...
日期:07-29
三星S24手机搭载AI模型:AI大模型应用越来越广泛_三星的ai是什么
荣耀x40什么时候上市多少钱手机厂商纷纷投入AI大模型的研发,标志着2018年进入快速发展阶段。预计到2027年,AI手机市场占比将达到45%,这一趋势源自智能手机行业对新技术的积极响...
日期:01-26
腾讯高管称游戏版号问题总会解决  称不久会有版号发放「腾讯游戏版号最新消息」
11月17日 消息:16日晚,腾讯高管在腾讯电话会议上表示,腾讯游戏版号总会解决,不久就会有版号发放。届时,腾讯将推出更多游戏,游戏行业的逆风因素将得到缓解。2021年7月全球游戏收...
日期:11-19
印度限制进口PC相关产品的禁令将推迟三个月 逆转?
集微网消息,据路透社报道,印度贸易监管机构周五晚表示,在新的笔记本电脑、平板电脑和个人电脑进口许可制度生效之前,印度将提供大约三个月的过渡期。这与周四出人意料的立即实施...
日期:09-18
Strotbek为新任董事会主席 Codasip宣布任命Axel
【】7月10日消息,RISC-V定制计算领域的领导者Codasip日前宣布:已任命Axel Strotbek为其新任董事会主席。该公告是公司长期战略计划的一部分,旨在专注于汽车等关键客户细分市场,...
日期:09-21
一家人旅游摆摊玩3天赚1000多元 网友:生活中处处有商机_一家人出去玩适合去哪里
近日,在浙江杭州,余先生一家选择留在杭州过年,他们在短短的三天时间里,不仅享受了愉快的短途旅行,还通过摆摊赚取了丰厚的收入,总计超过千元。余先生透露,他们一家从初一到初三这三...
日期:02-18
京东物流无领导小组讨论题目_京东超市面对订单持续高涨 成立应急小组
  4月25日消息,据悉,截至4月25日9时,面对订单持续高涨,京东超市紧急成立应急小组,协调支援提升产能清理生鲜订单,同时启用智慧排产控单。   截止到目前,重点民生商品备货量均...
日期:06-16
墨西哥调查“飞马”间谍软件的购买是否经过授权「飞马间谍软件是哪个国家的」
墨西哥检察官在一份声明中提到,他们一直关注前律师工会以2300万美元收购“飞马”(Pegasus )间谍软件的事件。墨西哥律师检察院提到它正在调查“飞马”间谍软件的收购,以及它是否...
日期:10-21
火山引擎DataLeap:为企业提供更加方便高效的代码同步、管理和复用方案
(原标题:火山引擎DataLeap:为企业提供更加方便高效的代码同步、管理和复用方案) 在软件开发过程中,用户需要在不同的项目中同步...
日期:11-09
华为与微软展开Android专利授权谈判(华为安卓专利)
  北京时间11月8日午间消息,华为(微博)已经证实,该公司正在与微软(微博)就Android操作系统的专利授权展开谈判。   微软称,谷歌Android操作系统侵犯其多项知识产权,并且已...
日期:07-24
苹果A16芯片造价曝光:达A15的2.4倍_2022年苹果a16芯片
中关村在线消息:近日,有外媒曝光了iPhone 14 Pro/Pro Max两款机型内搭载的A16芯片的信息,称其造价高达110美元(折合人民币约782元),是上代A15仿生芯片的2.4倍有余。根据介绍,A16仿...
日期:10-09
小米10至尊纪念版换电池「小米10至尊纪念版」
近日,小米公司正式推出了手机,以纪念小米公司成立10周年。手机在外观及配置方面均有所提升。在外观方面,手机采用了陶瓷后盖及金属边框设计,使得整体质感更为精致,外观更为高端。...
日期:05-29