您的位置:首页 > 互联网

中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型

发布时间:2023-09-25 18:12:53  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

森海塞尔最贵音响

【新智元导读】最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉化模型,开源可商用。

LLaMA-2相较于LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了大型模型的应用想象空间。

然而,从头预训练大模型的成本相当高,被戏称5000万美元才能入局,这使得许多企业和开发者望而却步。那么,如何以更低的成本构建自己的大型模型呢?

作为大模型降本增效的领导者,Colossal-AI团队充分利用LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5B token数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。

相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。

1more耳机和小米什么关系

秉承Colossal-AI团队一贯的开源原则,完全开源全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。

此外,相关方案还可迁移应用到任意垂类领域和从头预训练大模型的低成本构建。

开源代码与权重:https://github.com/hpcaitech/ColossalAI

性能表现

注:基于ColossalEval评分,括号中分数来源于对应模型官方发布的榜单分数,C-Eval分数来源于官网Leaderboard。

在常见的中、英文评测榜单,可以看到,在英文MMLU榜单中,Colossal-LLaMA-2-7B-base在低成本增量预训练的加持下,克服了灾难性遗忘的问题,能力逐步提升(44.47->53.06),在所有7B规模的模型中,表现优异。

在中文榜单中,主要对比了CMMLU, AGIEVAL, GAOKAO与 C-Eval,效果远超基于LLaMA-2的其他中文汉化模型。尤其是与原始LLaMA-2相比,Colossal-LLaMA-2在中文能力上有了质的飞跃 (CMMLU:32.97->49.89)。

即使与其他采用中文语料,可能花费上千万元成本,从头预训练的各大知名模型相比,Colossal-LLaMA-2在同规模下仍表现抢眼。

而通过SFT、LoRA等方式微调,能有效注入基座模型的知识与能力十分有限,不能较好的满足高质量领域知识或垂类模型应用的构建的需求。

为了更好的评估模型的性能,Colossal-AI团队不仅仅依赖于量化的指标,还对于模型的不同方面进行了人工的评估,以下是一些例子:

从整个训练的Loss记录来看,在利用Colossal-AI系统降本增效能力的同时,模型收敛性也得到充分保证,仅通过约8.5B tokens(85亿tokens),数千元算力成本,让模型达到如此惊艳的效果。

而市面上的大模型动辄使用几万亿token进行训练才有效果保证,成本高昂。

那么Colossal-AI团队是如何把训练成本降低,并达到如此的效果的呢?

词表扩充与模型初始化

LLaMA-2原始词表并未针对中文做特定优化,所包含的中文词有限,导致在中文语料上理解力不足。因此,首先对LLaMA-2进行了词表的扩充。

Colossal-AI团队发现:

  • 词表的扩充不仅可以有效提升字符串序列编码的效率,并且使得编码序列包含更多的有效信息,进而在篇章级别编码和理解上,有更大的帮助。

  • xbox11月10号新手柄

  • 然而,由于增量预训练数据量较少,扩充较多的单词反而会导致某些单词或组合无实际意义,在增量预训练数据集上难以充分学习,影响最终效果。

  • 过大的词表会导致embedding相关参数增加,从而影响训练效率。

  • 因此,经过反复实验,同时考虑了训练的质量与训练的效率,Colossal-AI团队最终确定将词表从LLaMA-2原有的32000扩充至69104。

    有了扩充好的词表,下一步就是基于原有的LLaMA-2初始化新词表的 embedding。

    为了更好的迁移LLaMA-2原有的能力,实现从原有LLaMA-2到中文LLaMA-2能力的快速迁移,Colossal-AI团队利用原有的LLaMA-2的权重,对新的embedding进行均值初始化。

    如此一来,既保证了新初始化的模型在初始状态下,英文能力不受影响,又可以尽可能的无缝迁移英文能力到中文上。

    数据构建

    为了更大程度的降低训练的成本,高质量的数据在其中起着关键作用,尤其是对于增量预训练,对于数据的质量,分布都有着极高的要求。

    为了更好的筛选高质量的数据,Colossal-AI团队构建了完整的数据清洗体系与工具包,以便筛选更为高质量的数据用于增量预训练。

    Colossal-AI团队数据治理的完整流程

    除了常见的对数据进行启发式的筛选和去重,还对重点数据进行了打分和分类筛选。

    合适的数据对于激发LLaMA-2的中文能力,同时克服英文的灾难性遗忘问题,有着至关重要的作用。

    最后,为了提高训练的效率,对于相同主题的数据,Colossal-AI团队对数据的长度进行了排序,并根据4096的最大长度进行拼接。

    训练策略

    多阶段训练

    在训练方面,针对增量预训练的特点,Colossal-AI团队设计了多阶段,层次化的增量预训练方案,将训练的流程划分为三个阶段:

  • 大规模预训练阶段:目标是通过大量语料训练,使得模型可以产出相对较为流畅的文本。该阶段由LLaMA-2完成,经过此阶段,模型已经掌握大量英文知识,并可以根据Next Token Prediction输出流畅的结果。

  • 中文知识注入阶段:该阶段依赖于高质量的中文知识,一方面增强了模型对于中文知识的掌握程度,另一方面提升了模型对于新增中文词表中单词的理解。

  • 相关知识回放阶段:该阶段致力于增强模型对于知识的理解与泛化能力,缓解灾难性遗忘问题。

  • 多阶段相辅相成,最终保证模型在中英文的能力上齐头并进。

    分桶训练

    增量预训练对于数据的分布极为敏感,均衡性就尤为重要。

    魅族MX5怎么样

    因此,为了保证数据的均衡分布,Colossal-AI团队设计了数据分桶的策略,将同一类型的数据划分为10个不同的bins。

    在训练的过程中,每个数据桶中均匀的包含每种类型数据的一个bin,从而确保了每种数据可以均匀的被模型所利用。

    评估体系

    为了更好的评估模型的性能,Colossal-AI团队搭建了完整的评估体系——ColossalEval,希望通过多维度对大语言模型进行评估。

    流程框架代码完全开源,不仅支持结果复现,也支持用户根据自己不同的应用场景自定义数据集与评估方式。

    评估框架特点总结如下:

  • 涵盖针对于大语言模型知识储备能力评估的常见数据集如MMLU,CMMLU等。针对于单选题这样的形式,除了常见的比较ABCD概率高低的计算方式,增加更为全面的计算方式,如绝对匹配,单选困惑度等,以求更加全面的衡量模型对于知识的掌握程度。

  • 支持针对多选题的评估和长文本评估。

  • 支持针对于不同应用场景的评估方式,如多轮对话,角色扮演,信息抽取,内容生成等。用户可根据自己的需求,有选择性的评估模型不同方面的能力,并支持自定义prompt与评估方式的扩展。

  • 构建通用大模型到垂类大模型迁移的桥梁

    由Colossal-AI团队的经验来看,基于LLaMA-2构建中文版模型,可基本分为以下流程:

    那么这套方案是否可以复用呢?

    答案是肯定的,并且在业务落地的场景中是非常有意义的。

    随着ChatGPT掀起的人工智能浪潮,全球各大互联网巨头、AI公司、创企、高校和研究机构等,纷纷在通用大模型的赛道上策马狂奔。

    然而,通用大模型通用能力的背后往往是针对特定领域内知识的不足,因此,在实际落地上,大模型幻觉的问题就变的尤为严重。

    针对业务微调固然可以有一定的收获,但垂类大模型的缺失导致应用落地存在性能瓶颈。

    如果可以快速低成本构造一个垂类大模型,再基于垂类大模型进行业务微调,一定能在业务落地上更进一步,占得先机与优势。

    将以上流程应用在任意领域进行知识迁移,即可低成本构建任意领域垂类基座大模型的轻量化流程:

    对于从头预训练构建基础大模型,也可借鉴上述经验与Colossal-AI降本增效能力,以最低成本高效完成。

    系统优化

    上述Colossal-LLaMA-2的亮眼表现和成本优势,构建在低成本AI大模型开发系统Colossal-AI之上。

    Colossal-AI基于PyTorch,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求等。

    仅一年多时间便已在GitHub开源社区收获GitHub Star3万多颗,在大模型开发工具与社区细分赛道排名世界第一,已与世界500强在内的多家知名厂商联合开发/优化千亿/百亿参数预训练大模型或打造垂类模型。

    Colossal-AI云平台

    为了进一步提高AI大模型开发和部署效率,Colossal-AI已进一步升级为Colossal-AI云平台,以低代码/无代码的方式供用户在云端低成本进行大模型训练、微调和部署,快速将各种模型接入到个性化的应用中。

    目前Colossal-AI云平台上已经预置了Stable diffusion, LLaMA-2等主流模型及解决方案,用户只需上传自己的数据即可进行微调。

    同时,也可以把自己微调之后的模型部署成为API,以实惠的价格使用A10, A800, H800等GPU资源,无需自己维护算力集群以及各类基础设施。

    此外,更多应用场景、不同领域、不同版本的模型、企业私有化平台部署等也正在不断迭代。

    ColossalAI云平台现已开启公测,注册即可获得代金券,欢迎参与并提出反馈。

    Colossal-AI云平台:

    platform.luchentech.com

    Colossal-AI云平台文档:

    https://docs.platform.colossalai.com/

    Colossal-AI开源地址:

    https://github.com/hpcaitech/ColossalAI

    参考资料:

    https://www.hpc-ai.tech/blog/one-half-day-of-training-using-a-few-hundred-dollars-yields-similar-results-to-mainstream-large-models-open-source-and-commercial-free-domain-specific-LLM-solution


    返回网站首页

    本文评论
    亚马逊税费会退吗_亚马逊拒缴营业税 再次中断在美两州业务
    (腾讯科技配图)(马乔)北京时间6月12日消息,据国外媒体报道,由于美国多个州政府都要求在该州有附属机构的互联网零售商缴纳营业税,因此亚马逊于本周五中断了其在康涅狄格州和阿肯色...
    日期:07-30
    产业链:iPhone 11相机模块开始生产 首批备货量超千万(iphone12摄像头供应商)
      据产业链最新消息称,iPhone 11系列的相机供应商LG Innotek已经开始生产其相机组件,满足该系列首批千万台的备货量。据悉,自3月开始LG Innotek增加了四倍员工数量,以满足iPh...
    日期:11-14
    马斯克将于3月1日公布特斯拉宏图第三篇章 第二篇章已烂尾_马斯克对特斯拉的规划
    2月8日消息,马斯克今天在Twitter上宣布,3月1日的特斯拉投资者日活动中,他将公布特斯拉宏图第三篇章(Master Plan Part 3)。特斯拉储能电站火灾华为p50怎么截屏该活动将在美国德克...
    日期:02-09
    理想汽车:4月第一周周销量达4177辆 远超其他新势力「理想汽车销量预测」
    4月13日 消息:据理想汽车官方公布数据,2023年4月第一周(4.03-4.09),理想汽车周销量达到4177辆,远超其他新势力品牌,再次蝉联中国市场新势力品牌周销量冠军。老款airpodspro新增自...
    日期:04-13
    Adobe Premiere Pro 更新正式加入 AI 驱动的基于文本的视频编辑及其他功能
    5月16日消息: Adobe 正式更新了 Premiere Pro,加入了基于文本的视频编辑功能。经过今年一段时间的测试版后,Adobe 上个月宣布该功能将于五月份加入 Premiere Pro,而本周这个更...
    日期:05-16
    百度地图线路分享「百度地图宣布接入文心交通大模型Beta版能力」
    6月5日 消息:据百度官方消息,近日,百度地图升级到18.5.0版本,结合文心交通大模型beta版能力,全面提升车位级导航、车道级导航、隧道导航、红绿灯倒计时、实时公交地铁等产品体验...
    日期:06-05
    恢复任务栏设置「win11恢复单独的任务栏图标」
    最新的windows11预览版包括一个隐藏功能,允许用户保持他们的任务栏图标分开,而不是像当前版本一样将它们合并在一起。这个功能,沿着隐藏的“显示应用程序标签”功能,将允许用户...
    日期:04-20
    新兴市场近身探索,茄子科技寻找出海玩家价值落脚点(新兴市场领军者找茄子科技)
      近日,2021第十九届中国国际数码互动娱乐展览会ChinaJoy在上海举办。同期系列会议中,“出海”多次被提及,成为游戏产业的关键词之一。根据游戏工委发布的《2021年1-6月中国...
    日期:07-17
    京东物流前CEO确认加盟协鑫,负责移动能源业务_京东物流合作公司
      36氪获悉,8月31日,协鑫能科宣布王振辉正式加盟公司,担任协鑫能科首席执行官,负责移动能源业务,直接向董事长汇报。此前,王振辉曾先后在联想集团、怡亚通和京东集团担任要职。...
    日期:09-05
    美国对ChatGPT动手 参议院多数党领袖:已启动AI规则的建立「美国2020参议院共和党」
    凤凰网科技讯 北京时间4月14日消息,随着ChatGPT等人工智能(AI)程序得到广泛使用,美国参议院多数党领袖查克舒默(Chuck Schumer)周四表示,他已经启动了一项建立AI规则的努力,以解...
    日期:04-14
    50元话费1元秒杀?360专家4招教你识破“秒杀陷阱”!_一元秒杀100元话费是真的吗
      50元话费1元秒杀?山东文登市民王先生在网上“秒杀”充值卡时,却因误入钓鱼网站导致网银账户密码失窃,损失达2万元。作为当下网购最热门的促销方式之一,“秒杀”让买卖双方...
    日期:07-26
    热议我是特种兵 畅玩4399游戏盒使命召唤7(我是特种兵之使命橙光游戏)
      姜文力作《让子弹飞》中一句“让子弹多飞一会儿”还没落地,1月14日登陆央视一套黄金时间的军旅题材电视剧《我是特种兵》(剧照 如题01所示),又让喜欢硬汉军旅戏的影迷们...
    日期:07-26
    再冷也不怕!宁德时代开发全新材料 极寒条件下充电效率可提升50%
    快科技7月7日消息,日前,有媒体报道,宁德时代首席科学家吴凯在2023年中国汽车论坛上表示:目前宁德时代已开发出了全新的电解质材料。对于北方的朋友来说,冬季寒冷天气条件对电动汽...
    日期:07-09
    不只做安卓性能标杆 「真我GT5」-Pro将首批搭载骁龙8 Gen3「真我gt5g测评」
    8月28日,全新的真我GT5正式亮相,该机拥有安卓阵营最强悍的性能配置,选用第二代骁龙8处理器,搭配的是LPDRR5X+UFS4.0的存储组合,同时还提供有240W和150W两种快充规格,一经上市便受...
    日期:09-10
    当贝市场分享硬核干货:电视机屏幕怎么选?市面上的屏幕都有哪些?
      电视作为一款“视觉电器”,其画质非常重要,而一块电视屏幕的好坏会直接影响着电视的画质,坊间也流传着“买电视就是买屏幕”的说法,这种说法虽然片面,但也体现了电视机...
    日期:07-14
    斯坦福大学研究人员推AI框架DSPy:利用语言模型和检索模型解决复制任务
    文章概要:1. DSPy是一个用于语言模型和检索模型的AI框架,可以解决各种高级任务。2. DSPy使用“签名”和“提示器”的模块化方法编译任何程序。3. DSPy需要很少的标记数据,可以...
    日期:08-29
    途虎养车香港IPO最终发售价定为每股28港元_途虎养车股份
    凤凰网科技讯 9月25日,途虎养车在港交所公告,香港IPO最终发售价已厘定为每股发售股份28港元,将自全球发售收取的所得款项净额估计约为10.81亿港元。预期A类股份将于9月26日(星期...
    日期:09-25
    怎样使用搜索框「当搜索框用上 ChatGPT」
    声明:本文来自于微信公众号 航通社(ID:lifeissohappy),作者:书航,授权转载发布。谷歌电脑版首页的格局,是和别处不同的:在搜索框旁边有两个按钮,而不是一个。在常规搜索按钮的右边...
    日期:02-09
    一文汇总,苹果 iOS 16 首个正式版有哪些无法上线的功能?_ios版是不是苹果
    IT之家 9 月 11 日消息,苹果 iOS 16 正式版将于 9 月 13 日推送,支持 iPhone 8 及之后上市机型。虽然 iOS 16 已经测试了三个月左右,但首个正式版仍将有一些功能无法上线。实时...
    日期:09-13
    趣头条打造“幸福回家路”传递温暖与陪伴(趣头条 - 让阅读更具价值)
      春运即将落幕,元宵节也结束,关于春节的话题似乎渐渐放低了声量。但回到熟悉的工作岗位,大家总会互道一声:新年好!这个春节过的怎样,回家的路又是否顺畅。而就在不久前,一场关...
    日期:01-26