您的位置:首页 > 互联网

700亿参数Llama 2训练加速195%!训练/微调/推理全流程方案开源,0代码一站解决

发布时间:2023-09-04 18:48:59  来源:互联网     背景:

声明:本文来自于微信公众号新智元(ID:AI_era),作者:新智元,授权转载发布。

近日,全球规模最大的大模型开发工具与社区Colossal-AI,发布了全套Llama2训练、微调、推理方案,可以为700亿参数模型的训练加速195%。

ChatGPT引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以AI大模型为核心的竞争力和多样化商业使用需求。

其中LLaMA系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。

但如何降低类Llama2大模型预训练成本,如何基于Llama2通过继续预训练和微调,低成本构建AI大模型实际应用,仍是AIGC相关企业面临的关键瓶颈。

作为全球规模最大、最活跃的大模型开发工具与社区,Colossal-AI再次迭代,提供开箱即用的8到512卡Llama2训练、微调、推理方案,对700亿参数训练加速195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。

开源地址:https://github.com/hpcaitech/ColossalAI

Llama2训练加速195%

Meta开源的LLaMA系列大模型进一步激发了打造类ChatGPT的热情,并由此衍生出了诸多项目和应用。

最新的7B~70B Llama2大模型,则进一步提高了语言模型的基础能力。

但由于Llama2的预训练预料大部分来自英文通用知识,而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。

此外,高质量的专业知识和数据集通常被视为各个行业和公司的核心资产,仅能以私有化形式保存。

因此,以低成本预训练/继续预训练/微调Llama2系列大模型,结合高质量私有化业务数据积累,帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。

但Llama2大模型仅发布了原始模型权重与推理脚本,不支持训练/微调,也未提供数据集。

针对上述空白与需求,Colossal-AI开源了针对Llama2的全流程方案,并具备高可扩展性,支持从70亿到700亿参数的模型,从8卡到512卡都可保持良好的性能。

在使用8卡训练/微调Llama27B时,Colossal-AI能达到约54%的硬件利用率(MFU),处于业界领先水平。

对于预训练任务,以使用512张A10040GB预训练Llama270B为例,DeepSpeed ZeRO3策略因显存不足而无法启动,仅能通过速度衰减较大的ZeRO3-offload策略启动。

相比之下,Colossal-AI则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速195%。

Colossal-AI Llama2训练/微调方案的高性能来源于新的异构内存管理系统Gemini和高性能算子(包括Flash Attention2)等系统优化。

新Gemini提供了高可扩展性,高鲁棒性,高易用性的接口。其Checkpoint格式与HuggingFace完全兼容,减小了使用和转换成本。其对于切分、offload等的设置更加灵活且易用,能够覆盖更多硬件配置下的Llama2训练/微调任务。仅需数行代码即可使用:

    fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportGeminiPluginplugin=GeminiPlugin()booster=Booster(plugin=plugin)model,optimizer,train_dataloader,criterion=booster.boost(model,optimizer,train_dataloader,criterion)

    ShardFormer多维细粒度并行

    虽然对于主流硬件条件和大多数模型,Colossal-AI的新Gemini已经能够提供良好的性能。但是对于一些极端硬件条件,或者是特殊模型,可能仍然需要多维并行的细粒度优化。

    现有其他方案通常需要分布式系统资深专家,手动对代码进行大规模重构和调优,Colossal-AI的ShardFormer提供了开箱即用的多维并行和算子优化的能力,仅需数行代码即可使用,在单机/大规模集群上都能提供良好的性能。

      fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportHybridParallelPluginfromtransformers.models.llamaimportLlamaForCausalLM,LlamaConfigplugin=HybridParallelPlugin(tp_size=2,pp_size=2,num_microbatches=4,zero_stage=1)booster=Booster(plugin=plugin)model=LlamaForCausalLM(LlamaConfig())model,optimizer,train_dataloader,criterion=booster.boost(model,optimizer,train_dataloader,criterion)

      Colossal-AI ShardFormer支持包括LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM在内的主流开源模型,也可以直接使用Huggingface/transformers模型导入,Checkpoint格式也与HuggingFace完全兼容,对比Megatron-LM等需重写大量代码的方案,大大提升了易用性。

      对于并行策略,已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero数据并行等,并可将多种并行方式组合使用,只需通过简单的配置命令,即可适配各种复杂的硬件环境/模型。同时,其内置了各种高性能算子,免去了繁琐的兼容/配置过程。其中包括:

      • Flash attention2

      • Memory efficient attention (xformers)

      • Fused Normalization Layer

      • JIT kernels

      云平台大模型一站式解决

      为了进一步提升开发和部署效率,Colossal-AI团队还将上述系统优势与算力结合,提供Colossal-AI云平台,提供廉价算力和开箱即用的AI主流应用,包括对话大模型,多模态模型,生物医药等,现已开启内测。

      通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等,AI开发者可以继续专注于AI模型与算法设计,以更低成本更快速度完成AI大模型助力业务降本增效。

      苹果九月发布会新品ipad

      乐视电视ui

      用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署。相关的应用都经过Colossal-AI团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。

      Colossal-AI云平台:platform.luchentech.com

      Colossal-AI开源地址:https://github.com/hpcaitech/ColossalAI


      返回网站首页

      本文评论
      360安全浏览器荣获2010驱动中国年度科技产品奖(360安全浏览器手机版官网下载)
        12月27日,国内最优秀的硬件资讯平台驱动中国推出2010年度科技产品奖,360安全浏览器作为国内浏览器厂商中用户数量最多的浏览器品牌荣获软件类年度科技产品奖。这也是国内...
      日期:07-25
      汽车导航弹窗广告?网友担心影响驾驶安全 车企回应_车载导航弹出广告怎么删除
        中新网9月29日电(中新财经记者 吴涛)近日,“车载导航中控屏出现弹窗广告”引发关注,车企回应称“非弹窗广告”,但表示“不会再进行类似推送”。  到底发生了什么?为何导航出...
      日期:09-30
      翼支付请你看春节档电影“神仙打架”
        一年一度的春节档电影季即将开启,《夺冠》(原名《中国女排》)、《囧妈》、《急先锋》、《紧急救援》、《姜子牙》等热门电影未播先火,许多影迷已经开始纠结到底先看哪部...
      日期:03-10
      2020母婴适用家电推荐产品线上发布会成功举办_母婴行业年会节目
        2020年6月6日(周六)下午14:30-16:00,由知电实验室主办,中国家用电器研究院技术支持的“守护起跑线,开启好未来”——。本次发布会在新浪财经家居、今日头条、小鹅通三渠道同...
      日期:07-14
      双11淘宝直播晚会怎么看「淘宝全球购双11将聚焦短视频和直播内容化」
      9月29日消息,淘宝直播发文称,淘宝全球购近日举办商家主播买手大会,面向消费者、商家买手、主播/机构等群体宣讲淘宝全球购的双11玩法和重点利好政策,同步解读了未来半年的重点策...
      日期:10-06
      寺庙内设电子扫码烧金 最低八块八网友感慨太先进:微信付款界面吸睛
      不少地方都有去寺庙烧香习惯,大家许下新的一年的愿望。一般情况下都是买点香,烧点香火钱,祭拜一下,图个吉利,多少年来,一直如此。特斯拉model y紫色据华西都市报封面新闻及福建广...
      日期:01-28
      小米发布mi mix fold 3与显示屏下的相机_小米mix fold主摄
      小米将于2022年夏季发布mi mix fold 3,可能的发布日期为7月。新机型最大的变化之一是内部屏幕使用了显示屏下摄像头,这也是小米首款使用该技术的可折叠旗舰手机。天猫双十一过...
      日期:05-20
      好莱坞罢工未停,96%的娱乐公司高层计划砸钱用AI替代人力
      文章要点:小鹏超越蔚来1、好莱坞编剧长达100多天的罢工仍未停止,96%的娱乐公司高层计划提高使用AI的投入。2、传统的娱乐产业商业模式面临挑战,亏损严重,资本急于找到新的增长...
      日期:08-24
      B站UP主“停更潮”登热搜:多位UP主做出回应_b站停播番剧
      今天,微博话题#B站UP主发起停更潮#爆火,一度登上微博热搜榜一,多名UP主集中宣布暂时停更,矛头直指平台收益减少,引起大众关注。属于量子测量问题的三种经典解释是激光雷达 气象目...
      日期:04-02
      互联网券商Robinhood宣布将裁员23%(robinhood证券)
      讯;北京时间8月3日凌晨消息,美国互联网券商股票交易服务公司Robinhood今天公布了该公司的2022财年第二季度财报。报告显示,Robinhood第二季度总净营收为3.18亿美元,与去年同期...
      日期:08-04
      新东方智慧教育与赤峰市教育局签订“协同赤峰教育高质量发展”合作协议
      海天酱油包装不一样 4 月 28 日,赤峰市教育局与新东方智慧教育举办了协同赤峰教育高质量发展签约仪式。赤峰市教育局党组书记、局长刘玉海,市教育局党组成员、副局长于福奎,...
      日期:05-07
      usb 3.0什么时候出现的「突然!USB 3.0/USB 4被正式取消:命名完全变了」
      但凡接触过电子产品的朋友,恐怕最熟悉的接口就是USB了。在USB 3.0时代,USB接口的命名开始出现前所未有的混乱,起初是USB 3.0、USB 3.1到USB 3.2这样的演进,后来又被集体更改为US...
      日期:10-06
      ios gmail 推送_谷歌iOS原生Gmail应用通知推送存在问题
        北京时间11月3日消息,谷歌周三针对iPhone、iPad和iPod Touch推出了原生的Gmail应用,用户可以通过苹果App Store应用商店下载该应用。   这款应用最大的特点是能够提供...
      日期:07-24
      surface duo 2 中国「DuoWOA新进展:Surface Duo 2即将可以运行Windows 11系统」
      通过 DuoWOA 项目最新版本,Surface Duo 2 距离运行 Windows 11 系统这个目标又近了一步。该项目负责人古斯塔夫·蒙塞(Gustave Monce)已经发布了 SurfaceDuoPkg 2209.90 版本,在...
      日期:10-04
      艾媒报告:百度输入法AI助聊升级,AI创作、花漾文、神句配图只为更懂你
        AI能让你开启人类高质量的聊天?使用百度输入法帮你实现。根据艾媒咨询发布的《2021年上半年中国第三方输入法行业趋势研究报告》数据显示,年轻人群正是第三方输入法的主...
      日期:06-01
      美监管部门:对特斯拉Autopilot长达两年调查即将结束「美国特斯拉调查令」
      8月25日消息,当地时间周四美国国家公路交通安全管理局(NHTSA)代理局长表示,NHTSA对特斯拉高级驾驶辅助系统Autopilot长达两年的调查即将结束,可能很快发布公告。NHTSA代理局长...
      日期:08-25
      OPPO Reno9「OPPO Reno9 Pro+发布:骁龙8+配双芯人像摄影系统 售3999元起」
      凤凰网科技讯(作者/莫环顺)11月24日消息,OPPO于今日举行发布会,发布手机OPPO Reno9系列,Reno9 Pro+搭载第一代骁龙8+移动平台的同时,支持双芯人像摄影系统,售价3999元起。OPPO Reno...
      日期:11-27
      孩子中英文启蒙工具首选阿尔法蛋词典笔
        随着科技进步以及人们对生活品质的追求,越来越多的人意识到高科技对人们生活的重要性。教育也是如此,家长忙没时间辅导孩子,怎么办呢?许多家长便会为孩子选择一款学习...
      日期:07-16
      apple vision「售价超2万5!苹果内部员工测试Vision Pro:都说太重了」
      快科技6月27日消息,Mark Gurman透露,苹果公司让内部员工体验Vision Pro,一些员工在使用几个小时后反映设备太重了”。虽然苹果未公布Vision Pro的具体重量,但是从它使用的金属铝...
      日期:06-27
      优刻得云服务如何帮助孩子王解决新零售痛点?(优刻得优云智联)
        中国母婴行业的领导者,新零售标杆企业孩子王是国内中立的云计算服务提供商优刻得合作企业。秉承“用户体验至上”的共同理念,优刻得将为孩子王提供实现高可用性和数据安...
      日期:03-19