出品 | 科技
作者 | 梁昌均
成立五个月的百川智能继续推进模型开源,并联手腾讯云、阿里云等合作伙伴意图打造生态。
在9月6日的百川智能开源大模型生态大会上,该公司CEO王小川正式发布开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat等版本,并且均为免费可商用。
“从今天开始,在发布Baichuan2之后,再用LLaMA2作为开源模型的时代已经过去了。”王小川表示,现在国内可以获得比LLaMA更友好且能力更强的开源模型,这将能够帮助扶持中国整个生态的发展。
自今年4月成立以来,百川智能在不到四个月的时间里先后发布了BaiChuan-7B、BaiChuan-13B、BaiChuan-56B等三个大模型,其中前两个模型均免费开源。王小川在会上透露,公司开源模型在所有开源社区总计下载量已达500万。
“我们认为国内有需求,也是我们能贡献的地方是在开源模型方面,所以公司成立之后就开始发布开源模型,同时也兼顾了闭源大模型的训练。”王小川表示,百川智能计划在今年四季度发表对标ChatGPT-3.5的模型,明年一季度发布超级应用,希望在开源闭源方面都能做出贡献。
据王小川介绍,目前已有200多家企业申请百川大模型开源商用授权,企业涵盖互联网、金融、法律、教育、制造、企业服务等,比如腾讯云、阿里云、火山引擎、亚马逊云、京东、浪潮、顺丰、卡奥斯、美的、蔚来、中国农业银行等。随着8月底获批正式向公众开放,百川大模型也开始向C端提供服务。
此次发布的Baichuan 2-7B-Base和Baichuan 2-13B-Base在上一代开源模型的生成与创作能力、流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。
三星galaxys3安卓11
其中Baichuan 2-13B-Base相比上一代13B模型,文科理科能力全面提升,尤其是理科能力提升明显,比如数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
王小川表示,BaiChuan2处于开源模型最好水平,Baichuan 2-7B-Base和Baichuan 2-13B-Base在MMLU、CMMLU、GSM8K等评估榜单上均分别取得同尺寸开源模型最优异的效果;其中Baichuan 2-7B-Base在中英文主流任务全面超越LlaMA3-13B,起到了“以小博大”的效果。
华为折叠屏手机限定版
现场展示的模型能力对比图显示,BaiChuan2-7B在安全、代码、数学计算、逻辑推理、语义理解等方面都超过LlaMA3-13B,但距GPT3.5-Turbo还有一定差距,尤其是在安全、代码、数学计算、逻辑推理等方面差距较大。
Baichuan 2-7B-Base和Baichuan 2-13B-Base模型的Benchmark成绩
在数据层面,此次发布的BaiChuan2系列模型均基于万亿互联网数据和垂直行业数据,训练语料达2.6TB token,并打造了超大规模内容聚类系统,小时级别完成千亿数据清洗和过滤,可以实现篇章、段落、桔子等多粒度内容质量打分,支持中英法等数十种语言。
在训练过程中,百川智能打造了稳定高效的分布式训练框架,使用了千卡A800集群,达到了180TFLOPS的训练性能。在安全层面,BaiChuan2系列模型采取了多种措施去推动对齐,比如优化全训练周期,推动系统价值观对齐;设计多类型价值观,进行了大量红蓝攻防数据训练;平衡有用性无害性等,多阶段多目标强化学习。
在发布会上,王小川还宣布开源模型训练从220B到2640B全过程的 Check Ponit,开源训练模型过程对国内开源生态尚属首次。“这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展。”
王小川表示,在学术推动以外,这次开源非常有真实诚意。他提到,LLaMA在开源的时候被国际组织批评过,一是用户超过7亿就不提供开源支持,二是LLaMA开源仅适用于以英文为主的环境,如果是中文场景拿不到开源协议,对国内是不友好的。
百川智能还联合中国计算机学会(CCF)联合推出百川大模型研究基金,推动围绕大模型不同阶段、不同维度的技术和不同领域、场景的结合应用等相关研究。“今年我们会投入约300-400万元,设立相关方向跟高校共同去做研究,同时也会提供相应研究经费,支持15-20个项目的启动。”王小川说。
近期,百川智能和亚马逊云共同开启了AI黑客马拉松大赛,提供强大算力支持和大量8*A100实例,聚焦医疗健康和游戏娱乐两大赛道,选手最高可获得20万资金支持。
活动现场,百川智能还和腾讯云、阿里云、亚马逊云、火山引擎、华为、联发科、寒武纪等企业达成开源生态合作。“百川智能将和行业企业共创开源生态,推动形成开源中国大语言莫大型开源免费商用格局。”王小川表示。