您的位置:首页 > 互联网

全面取代Llama 2!Baichuan 2自曝史上最全训练细节

发布时间:2023-09-15 16:22:54  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

在国内,Llama的时代,已经过去了。

9月6日,百川智能宣布正式开源Baichuan2系列大模型,包含7B、13B的Base和Chat版本,并提供了Chat版本的4bits量化,均为免费商用。

下载链接:https://github.com/baichuan-inc/Baichuan2

在所有主流中英文通用榜单上,Baichuan2全面领先Llama2,而Baichuan2-13B更是秒杀所有同尺寸开源模型。毫不夸张地说,Baichuan2-13B是目前同尺寸性能最好的中文开源模型。

而在过去一个月里,Baichuan系列的下载量在Hugging Face等开源社区已经超过了347万次,是当月下载量最高的开源大模型,总下载量已经突破500万次。

Llama2,已经不需要了

相比之下,国外的当红炸子鸡Llama2,就可以和我们说拜拜了。

千模大战过后,大模型已经进入了「安卓时刻」。现在看来,最有希望替代Llama2的国产大模型,就是Baichuan2。

原因其实很简单,一方面Baichuan2系列大模型在性能上,不仅以绝对优势领先Llama2,而且大幅度优于同尺寸的竞品。

另一方面,在Meta的商用协议中,实际上并不允许开放Llama模型在中文社区的商用;而Baichuan系列大模型目前是全面开源商用的。

Llama2商业协议明确表示不允许英文以外的商业

中文开源第一

作为中文开源大模型的第一,百川大模型面对LLM经典难题的表现,也让人眼前一亮。

对于博大精深的汉语,具备精准语义理解能力的Baichuan2,可以充分理解其中的精妙。

而并不擅长中文的Llama213B,只是说了一堆无用的废话。

在考验推理能力的代码生成方面,Baichuan2能做到足够的精细化,并且可用率已经达到了行业领先水平。

对于这道题,Llama2也可以搞定,但默认只会用英文进行回复。

难度更大的多轮对话,让无数大模型折戟。

在这方面,百川大模型可以说是遥遥领先,能够轻松完成各种复杂的指令跟随。

就连难倒GPT-4的推理题,百川大模型都不在话下。

模型评测

除了刚刚这些真实场景的评测外,Baichuan2在多个权威的中文、英文和多语言的通用以及专业领域的基准测试中,都取得了同等规模最佳的效果,而Llama2则是全面落败。

对于通用领域,评测采用的基准为:中文基础模型评测数据集C-Eval、主流英文评测数据集MMLU、评估知识和推理能力的中文基准CMMLU、评估语言和逻辑推理能力的数据集Gaokao、评估认知和解决问题等通用能力的AGIEval,以及挑战性任务Big-Bench的子集BBH。

在法律领域,采用的是基于中国国家司法考试的JEC-QA数据集。在医疗领域,除了通用领域数据集中医学相关的问题外,还有MedQA和MedMCQA。

数学领域为GSM8K和MATH数据集;代码领域为HumanEval和MBPP数据集。

最后,在多语言能力方面,则采用了源于新闻、旅游指南和书籍等多个不同领域的数据集Flores-101,它包含英语在内的101种语言。

总结来说,Baichuan2系列不仅继承了上一代良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性,而且在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。

其中,Baichuan2-13B-Base相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。

数据

Baichuan2系列大模型之所以能实现如此傲人的成绩,其中一个原因便是,训练语料规模大、覆盖全,且质量优。

在数据获取上,百川团队主要从网页、书籍、研究论文、代码库等丰富的数据源采集信息,覆盖了科技、商业、娱乐等各个领域。

总计有2.6TB token规模的数据集。

与此同时,数据集中也加入了多语言的支持,包括中文、英文、西班牙语、法语等数十种语言。

Baichuan2训练数据不同种类分布

那么,优秀的数据质量获取是如何实现?

作为一家有搜索基因的公司,百川智能借鉴了之前在搜索领域的经验,将重点放在了数据频率和质量上。

一方面,通过建立一个大规模「重复数据删除和聚类系统」,能够在数小时内,实现对千亿级数据的快速清洗和去重。

告别麒麟华为mate 50还值得期待吗

另一方面,数据清洗时还采用了多粒度内容质量打分,不仅参考了篇章级、段落级、句子级的评价,还参考了搜索中对内容评价的精选。

通过细粒度采样,大幅提升了模型生成质量,尤其是在中文领域。

不同数据处理阶段的训练数据大小

训练

数据准备完成后,接下来就进入大模型最重要的阶段——训练。

百川团队使用AdamW优化器,BFloat16混合精度对模型进行了训练。

为了稳定训练过程,提高模型性能,研究还采用了NormHead,对输出embedding进行归一化处理。

另外,在训练期间,百川团队还发现LLM的对数值可能会变得非常大,由此引入Max-z loss来稳定训练,让模型推理对超参数更加稳健。

如下图,可以看到,Baichuan2-7B/13B的损失曲线在持续降低。

以往研究表明,模型的性能随着参数规模的扩大呈现出一定的可预测性,也就是人们常说的scaling law。

在训练数十亿参数的大型语言模型之前,百川智能预训练了从10M到30B参数的模型,总计token规模达1万亿。

通过将幂律项拟合到给定训练浮点运算次数的损失中,可以预测在2.6万亿token上训练Baichuan2-7B和Baichuan2-13B的损失曲线。

如下图所示,30M、50M、100M等不同参数规模的模型曲线都在下降,并且最后能够线性回归到一个值。

这使得,在预测更大规模模型的性能时,能够有一个较为准确的估计。

值得一提的是,这与OpenAI在发布GPT-4时的情况类似,只需要万分之一的训练,可以预测后面模型的性能。

由此可见,整个拟合过程,能够较为精确地预测模型的损失。

同时,百川基础设施的团队进行了大量工作,优化了集群性能,使得目前千卡A800集群达到180TFLOPS训练速度,机器利用率超过50%,达到行业领先水平。

如上,在训练过程中,百川智能模型呈现出了高效、稳定、可预测的能力。

安全

那么,训练后得到的模型,如何确保是安全的呢?百川智能在此也做了很多安全对齐的工作。

在模型训练前,团队已经对整个数据集进行了严格的过滤,还策划了一个中英文双语数据集,纳入了各种正能量的数据。

另一方面,百川智能还对模型做了微调增强,安全强化学习,设置了6种攻击类型,并进行了大量红蓝对抗训练,能够提升模型的鲁棒性。

在强化学习优化阶段,通过DPO方法可以有效利用少量标注数据,来提升模型对特定漏洞问题的性能。

另外,还采用了结合有益和无害目标的奖励模型,进行了PPO安全强化训练,在不降低模型有用性的前提下,显著增强了系统的安全性。

可以看到,百川智能在模型安全对齐方面也做出很多努力,包括预训练数据加强、安全微调、安全强化学习、引入红蓝对抗。

Baichuan2的开源,是真正的开源

对于学术界来说,是什么阻碍了对大模型训练的深入研究?

从0到1完整训练一个模型,成本是极其高昂的,每个环节都需要大量人力、算力的投入。

其中,在大模型的训练上,更是包括了海量的高质量数据获取、大规模训练集群稳定训练、模型算法调优等等,失之毫厘,差之千里。

然而,目前大部分的开源模型,只是对外公开了模型权重,对于训练细节却很少提及。并且,这些模型都是最终版本,甚至还带着Chat,对学术界并不友好。

也是因此,企业、研究机构、开发者们,都只能在模型基础上做有限的微调,很难深入研究。

针对这一点,百川智能直接公开了Baichuan2的技术报告,并详细介绍了Baichuan2训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。

更重要的是,百川智能还开源了模型训练从220B到2640B全过程的Check Ponit。

这在国内开源生态尚属首次!

对于模型训练过程、模型继续训练和模型的价值观对齐等方面的研究来说,Check Ponit极具价值。

Baichuan2的11个中间checkpoints在C-Eval、MMLU、CMMLU三个benchmark上的效果变化

对此,复旦大学计算科学技术学院教授张奇表示:

Baichuan系列发布的模型分片,对于研究大模型的本质来说有非常大的好处。我们既可以知道它每次的迭代过程,也可以在中间的分片里面做非常多的事情。

而且,相比于那些直接开源最终版,甚至还是Chat版的模型,百川开源得非常干净,从底座开始就是很干净的语言模型。

此外,很多的评测都是从单点维度进行的,甚至在某些榜单,GPT-4都排到第10了,这其实没有任何意义。而百川的评测结果就非常好。

而从商业角度看,Baichuan2模型也是企业非常好的选择。

之前免费可商用的Llama2发布后,许多人认为这会对众多创业公司造成打击,因为它可以满足低成本、个性化的需求。

但经过仔细思考就能明白,Llama2并未改变市场格局。

企业若是要用模型,即使是微调,也需要花费一些成本、精力和时间。

而如果选一个性能较弱的模型(尤其是主要基于英文语料的模型),重新训练也是有难度的,成本几乎跟自己重新去做一个大模型差不多了。

既然Llama2不擅长中文,协议也禁止非英文场景商用化,因此显而易见,在商用领域,综合能力更强的开源模型Baichuan2,几乎可以说是不二之选。

基于Baichuan2系列大模型,国内研究人员可以进行二次开发,快速将技术融进现实的场景之中。

一言蔽之,Baichuan2就像是源源不断地活水,不仅通过尽可能全面的开源来极大地推动国内大模型的科研进展,而且还通过降低国内商业部署门槛让应用创新能够不断涌现。

参考资料:

https://github.com/baichuan-inc/Baichuan2


返回网站首页

本文评论
消息称亚马逊创始人贝索斯已订婚 目前暂未透露婚礼安排「亚马逊创始人贝索斯有多少钱」
最近据媒体报道,有知情人透露说,海外科技巨头亚马逊的创始人杰夫·贝索斯和前新闻主播劳伦·桑切斯已经订婚。贝索斯的订婚对象桑切斯现在是一名慈善家,二人于2019年正式公开关...
日期:05-23
哈佛H6新能源_哈弗品牌发布新能源战略,第三代H6混动版开启预售14.98~17.68万
钛媒体消息2022年8月22日,哈弗品牌正式发布了新能源战略以及品牌标识,并同步首发第三代哈弗H6超级混动DHT车型,包括HEV以及PHEV两个版本。其中,第三代哈弗H6 HEV版官方指导价14....
日期:08-24
荣泰漫威联名款筋膜枪,可以放在口袋里的身体放松神器
  最近一段时间,筋膜枪的人气实在太高了!不仅一大波健身博主争相种草,最近丁香医生推荐了荣泰G20漫威款筋膜枪,让我们来康康荣泰G20漫威联名款筋膜枪,用按摩科技,拯救每一块肌...
日期:07-10
Redmi Note 12马上发 卢伟冰:新品还是很强 大家讨论了很久_卢伟冰红米note10
10月9日晚,小米集团中国区总裁、Redmi品牌总经理卢伟冰为Redmi新品预热,称Redmi新品还是很强,大家又讨论了很久”。买iphone14promax还是14pro目前Redmi Note 12系列已经获得3C...
日期:10-11
汽车之家2021年财报「汽车之家2022年第三季度营收18.43亿元 净利润5.078亿元」
11月4日 消息:汽车之家发布了截至2022年9月30日止第三季度业绩。2022年第三季度,该集团期间内净收入总额为18.43亿元(人民币,下同),同比增加4.48%;归属于汽车之家的净利润为5.08...
日期:11-12
“2019-2020全球领先品牌Global Top Brands”聚焦前沿科技  创新驱动消费电子行业发展
  当地时间1月7日,展示科技创新的前沿阵地,国际消费类电子产品展览会(以下简称CES)在拉斯维加斯盛大开幕。开展次日,国际数据集团正式发布“2019-2020全球领先品牌Global To...
日期:05-19
格力电器:前三季度营收1474.89亿元 净利润183亿元
10月30日消息,今日下午,格力电器发布2022年第三季度业绩报告,报告显示,格力电器第三季度营收522.67亿元,同比增长11.01%;归属于上市公司股东的净利润为68.38亿元,同比增长10.5%;扣...
日期:10-31
3999元起  华为Mate50E今日开启预售「华为Mate50最新消息」
中关村在线消息:10月8日上午10:08,主打“创新本色,领势而上”的华为Mate50E即将正式开启预约,10月14日正式开售。华为官方也随手机一同为用户提供了碎屏服务宝、延长服务宝两项...
日期:10-28
大神魔改AirPods:无线变USB-C有线「airpods改type c」
在用无线耳机的你,怀念有线吗?极米h3s功能介绍日前,大神Ken Pillonel出手,居然将一副AirPods耳机改造成了USB-C有线接口。佳能eos r6价格当然,从成品形态上来说,并不是很美观,对比...
日期:04-02
抖音又出了一个“辛吉飞”_辛吉东直播间
声明:本文来自于微信公众号 派代(ID:paidaiwang),作者:泊如,授权转载发布。靠揭秘临期食品行业内幕,抖音博主“临期也狗”走红,一周涨粉近百万。另一位名叫“尖商胖丁”的博主,也在最...
日期:04-17
华为申请hc「华为已申请GPT相关商标“HUAWEI NETGPT”」
6月5日 消息:企查查APP显示,近日,华为技术有限公司申请注册了两枚“HUAWEI NETGPT”商标,国际分类包含科学仪器、设计研究,当前商标状态为注册申请中。三星猎户座芯片能崛起吗京...
日期:06-06
民营天龙二号液体火箭首飞成功:还隐藏了一个中国第一_天龙1号
4月2日,天兵科技天龙二号遥一运载火箭发射成功,一举开创了国际航天和国内航天7项新纪录,尤其是这是全球私营航天首家液体运载火箭首次成功入轨飞行。根据天兵科技介绍,天龙二号...
日期:04-17
港股美团收跌超9% 快手跌超4%「美团股票怎么跌得这么快」
  讯 8月16日下午消息,香港恒生指数收跌1.05%,恒生科技指数收跌2.03%。港股美团收跌超9%,盘中市值一度跌破万亿港元。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。...
日期:09-27
被你嫌弃的iPhone新机,扭转了苹果正在下滑的净利_苹果概念为何大跌
声明:本文来自微信公众号“全天候科技”(ID:iawtmt),作者:于惠如,,授权转载发布。比其它硅谷科技巨头,苹果今年第四财季营收和净利均创史上同期新高,都高于分析师预期,迎来公司历史上...
日期:11-03
OPPO K11系列证件照公布:经典圆环三摄 直角立边「oppo find x3证件照」
快科技6月27日消息,一款型号为PJC110的OPPO新机已经入网,这应该就是即将发布的OPPO K11系列,其证件照”已经亮相。可以看出,新机的设计与前不久发布的OPPO K11x的设计基本一致,正...
日期:06-27
迪士尼新开疯狂动物城「疯狂动物城将拍续集 迪士尼已注册多枚疯狂动物城商标」
2月9日 消息:近日,迪士尼CEO鲍勃·艾格最新宣布《疯狂动物城》将拍续集。这部动画电影于2016年推出,大获成功,拿下10.255亿美元全球票房,目前还未出正式的后续电影,去年推出了衍...
日期:02-09
抖音抖客成功的核心。_什么是抖音获客
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。这个国庆假期里发现许多朋友都没闲着,朋友圈出现了人都在许多推广各种...
日期:10-11
美股周五:三大股指强势反弹纳指涨超200点,奈飞涨超8%,Meta收涨4%_美股三大股指上周涨
美国时间周五,美股收盘主要股指全线反弹,纳指上涨逾200点。美股今日上涨主要受新一轮银行财报和前景乐观的经济数据推动,同时市场对美联储加息100个基点的担忧有所减弱。道琼斯...
日期:08-28
互联网平台分类分级指南_分类分级是推动平台互联互通的关键一步
作者:陈兵;;责编:任绍敏   分类分级规范体系与新《反垄断法》结合,能提升平台经济反垄断监管效能。   8月1日起,新《反垄断法》正式施行,其在总则部分增加第9条规定“经营者...
日期:08-18
2023年每位开发者都应关注的7个GitHub存储库_GITHUB2021
1月10日 消息:GitHub是在网络上托管软件项目的主导者。GitHub拥有超2亿 存储库,为开发人员提供了大量的知识,但是在巨量的存储库中找到优质的存储库来学习是很困难的。本文将...
日期:01-10