您的位置:首页 > 互联网

王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访_王小川ioi

发布时间:2023-06-15 16:27:33  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),编辑:好困 桃子,授权转载发布。

【新智元导读】今天,百川智能正式发布70亿参数开源中英文大模型——baichuan-7B,一举拿下多个评测榜单最佳成绩。

时隔两个月,王小川组建的「百川智能」在6月15日正式推出首个70亿参数中英文预训练大模型——baichuan-7B。

baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。

目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。

王小川访谈

Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7B

Github:https://github.com/baichuan-inc/baichuan-7B

Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

多个中文评估基准拿下7B最佳

为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个最具影响力的中文评估基准进行了综合评估,并且均获得了优异成绩,它已经成为同等参数规模下中文表现最优秀的原生预训练模型。

王小川访谈

在AGIEval的评测里,baichuan-7B综合评分达到34.4分,远超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。

在中文C-EVAL的评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分,甚至比某些参数规模更大的模型还要出色。

在Gaokao评测中,baichuan-7B的综合评分达到了36.2分,显著领先于同参数规模的各种其他预训练模型。

王小川有多牛

https://cevalbenchmark.com/static/leaderboard_zh.html(2023-06-15)

AGIEval评测基准由微软研究院发起,旨在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。

C-Eval评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。

Gaokao评测基准是复旦大学研究团队创建的评测框架,以中国高考题目作为数据集,用于测试大模型在中文语言理解和逻辑推理能力方面的表现。

MMLU基准大幅领先LLaMA-7B

baichuan-7B不仅在中文方面表现优异,在英文上表现同样亮眼。

在MMLU的评测中baichuan-7B综合评分高达42.5分,大幅领先英文开源预训练模型LLaMA-7B的34.2分以及中文开源模型ChatGLM-6B的36.9分。

王小川教授

MMLU由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。

万亿数据、4K上下文、高效稳定训练

训练语料对大模型的训练结果至关重要。在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。

具体来说,原始数据包括自行抓取的海量中英文互联网数据和部分开源的中英文数据,以及大量高质量知识性数据。

王小川 ceo

在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选。

在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。

相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。

在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的业界领先水平。

同时,已有的开源模型窗口长度在2K以内,对于一些长文本建模任务,如需要引入外部知识做搜索增强的场景,更长的处理长度有助于模型在训练与推理阶段捕获越多的上下文信息,2K的处理长度存在比较大的制约。

王小川有多牛

经过优化的分词算法

baichuan-7B基于高效的attention算子优化实现了万级别超长动态窗口的扩张能力,本次开源的预训练模型开放了4K上下文窗口,使模型应用场景更加广泛。

此外,baichuan-7B还对模型训练流程进行了深度优化,采用了更科学且稳定的训练流程和超参数选择,使得 baichuan-7B模型的收敛速度大大提升。

斗鱼陈少杰

与同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。

王小川 ai

开源免费可商用,清北已抢先体验

秉持开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。

baichuan-7B此次开源的内容十分丰富,包含了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。

其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用;预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。

据了解,北京大学和清华大学两所顶尖大学已率先使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。

苹果新品发布airpods pro2

清华大学互联网司法研究院院长、计算机系教授刘奕群认为, baichuan-7B模型在中文上的效果表现十分出色,它免费商用的开源方式展现出开放的态度,不仅贡献社区,也推动技术发展。团队计划基于baichuan-7B模型开展司法人工智能领域的相关研究。

北京大学人工智能研究院助理教授杨耀东认为,baichuan-7B模型的开源将对于中文基础语言模型的生态建设及学术研究产生重要推动作用,同时他也表示将持续关注相关领域探索,并且在中文大语言模型的安全和对齐上进行进一步深入研究。

百川智能CEO王小川表示:「本次开源模型的发布是百川智能成立2个月后的第一个里程碑,对百川智能而言是一个良好的开局。baichuan-7B模型,不仅能为中国的AGI事业添砖加瓦,也为世界大模型开源社区贡献了新的力量。」

技术团队专访

Q:baichuan-7B如何处理幻觉问题,未来该如何提高结果正确性?

A:大模型在可见的未来还不能彻底解决幻觉问题,一方面通过强化学习来让模型知道自己不知道,有效缓解幻觉,更重要的是需要靠「搜索增强」引入外部知识来逐步解决幻觉问题。

Q:baichuan-7B能带来哪些商用价值?

A:baichuan-7B作为在多个榜单评测效果成绩最佳的7B开源可商用大模型,填补了市场上缺乏优质的针对中文优化的7B大模型的空白,是开发者理想的7B大模型底座。同时在商用价值方面,能够在例如文本生成,自动化写作,数据分析,知识问答,中英翻译,个性化交互和专业领域个人小助手,比如医疗领域,给用户带来巨大的价值。

Q:baichuan-7B在评测榜的成绩达到最初的训练模型预期了吗?

A:打榜并不是我们的目的,我们相信好的数据和算法能力,评测自然会有好的结果,这次baichuan-7B在多个最具影响力的评测中的优异表现也验证了百川的这个理念。

参考资料:

https://github.com/baichuan-inc/baichuan-7B


返回网站首页

本文评论
V+加盟QQ网购 电商开放平台竞争加剧(qq电商公众平台)
  10月11日,腾讯超级电商平台QQ网购正式上线,凡客旗下V+商城作为QQ网购服装服饰品类的独家合作商重磅加盟,充分开放平台与QQ网购对接。继淘宝商城、腾讯先后启动电子商务超...
日期:07-23
京东宣布扩招员工1.5万人 招聘一线员工及基层管理者(京东员工招聘渠道)
  2月25日消息,京东集团宣布2019年的新增岗位需求预计将达1.5万人,其中京东物流将在2019年新增1万名员工,招聘对象以一线员工及基层管理者为主,零售子集团等板块的招聘方向将...
日期:12-08
注意!多地集中销毁 涉及4类电动两轮、三轮车「电动三轮新规定」
电动两轮、三轮非机动车,因为使用方便,购置成本较低,受到群众的广泛欢迎。不过,此前各类电动非机动车的规范标准不易,致使不少车辆性能不达标或者超标电动车有了国标和超标之分,国...
日期:11-02
三星独占结束!国产手机将用上“鸡血版”二代骁龙8「三星骁龙多少钱」
快科技5月20日消息,三星Galaxy S23系列曾独占首发骁龙8 Gen 2 for Galaxy,堪称鸡血版”二代骁龙8。据博主数码闲聊站”消息,三星对高频版骁龙8 Gen2的独占期已经结束,部分国产手...
日期:05-20
后疫情时代一撕得蓄力向上  拉链纸箱6.0实现99%抗菌性
  ​后疫情时代,城市重启、万业待兴,随着疫情趋缓,生活正慢慢回到正轨,但是健康意识已渗透到生活的方方面面,抗菌、消毒产品俨然已经成为人们生活中不可缺少的必备物品,后疫情...
日期:07-14
爱回收科技资讯:巴塞罗那MWC21下月如期而至
  5月25日消息,巴塞罗那世界移动大会(简称MWC)将于下个月如期举行,举办形式依然为线下形式,主办方预估参会人数将达到3.5万-5万人次。   在一场由洪曜庄与 GSMA 会长葛瑞...
日期:11-08
天猫服务条款「天猫新增《周期购服务保障规范》」
10 月 13 日消息,天猫平台日前发布新增《周期购服务保障规范》的公示通知(以下简称公告)。公告称,为保障买家在平台购买长周期履约类商品的资金安全性,提升买家购物的服务体验,天...
日期:10-28
华硕笔记本n56_华硕笔记本N56VZ回收价
是一款功能强大、性能稳定的笔记本电脑,广受消费者的青睐。下面我们来对其进行详细的介绍和搜集相关信息,为大家全面地展示这款笔记本电脑的优势。外观设计方面,采用了时尚的外...
日期:05-30
pingcap校招_赋能社区 PingCAP University 培训课程2.0重磅升级
  经过半年时间的持续打磨,PingCAP University 迎来了一次重大升级,发布培训课程 2.0。   作为世界级的开源项目,经过四年的发展,TiDB 在越来越多的场景里落地,正逐渐被视为...
日期:05-16
云行业故障事件频现,多云战略势在必行_为什么云变化多端
  近日,受施工方挖断光纤影响, 亚马逊中国云服务(AWS)突发大规模故障,相关用户无法链接 Internet。受此次事件的影响,三星服务器全线崩溃。   这不是AWS第一次发生大规模故...
日期:06-11
推特收购案叫停后 特朗普抨击马斯克:吹牛大师「马斯克在推特上推的币」
(原标题:推特收购案叫停后 特朗普抨击马斯克:吹牛大师) 财联社7月11日讯(编辑 周子意)在特斯拉CEO马斯克当地时间上周五(8日)宣布退...
日期:08-29
支付宝2023年“集五福”来了 网友:两块钱的大项目「支付宝集五福2020多少亿」
还有十来天就要过年了,一年一度的支付宝集五福”活动还是来了。支付宝宣布,集五福”活动将于2023年1月10日0点正式开启,届时在支付宝搜索集五福”即可收集五福卡片。活动时间为...
日期:01-09
vertu手机报价「vertu signature手机价格」
Vertu手机是一款由英国奢侈品牌Vertu推出的高端智能手机。该手机采用顶级的材料和工艺,内置了最先进的技术,是高端人群非常喜爱的手机之一。本文将为您介绍Vertu手机的报价及...
日期:05-31
爱立信、高通等组建新一批RedCap编队:助力推进RedCap商用成熟「爱立信ohs」
爱立信、高通等组建新一批RedCap编队:助力推进RedCap商用成熟 通信产业网|2023-06-01 16:37:04作者:通文来源:通信产业网【通信产业网讯】日前,在中国移动组织召开的移动通信子...
日期:06-02
马斯克用的推特「提高平台透明度!马斯克宣布下周推特算法开源」
2月22日消息,当地时间周二社交媒体推特老板埃隆·马斯克(Elon Musk)在回复用户推文时表示,推特将于下周开源算法。在此之前,马斯克一直说要将推特算法开源。周二一名推特用户表示...
日期:03-01
iphone照片流关闭照片还在吗「苹果关闭我的照片流服务:用户尽快迁移iCloud」
苹果已经官宣,将在7月26日关闭“我的照片流”(My Photo Stream)服务,并推荐现有用户尽快迁移到“iCloud Photos”服务上。6月26日开始,不再接受用户上传照片到“我的照片流”;在保...
日期:05-28
amd r1000_AMD处理器单板机公布:搭载R1000系列嵌入式SoC
  3月22日消息 根据AnandTech的报道,DFI宣布了世界上最小的搭载AMD处理器的单板机,使用的是Ryzen嵌入式处理器。   IT之家了解到,DFI GHF51 1.8英寸单板机搭载了AMD的双...
日期:09-10
九号公司发布系列新品,E300P未来旗舰电摩24999元起_2021款九号e200pone电动车
【网易科技5月10日报道】九号公司2023新品发布会,发布九号电动E300P、小V、小Q三款智能电动两轮车,九号电动滑板车E2栀子白新色,Segway AT5全地形车,Segway储能电源Cube等,并同步...
日期:05-11
股价暴跌超9%,东方甄选遭限流?抖音否认:鼓励优质直播间
小米5的处理器骁龙820怎么样天猫整体流量下降穷游网 高端锤子发布过的手机消费法关于团购退款的规定   记者/范佳来   近日有传言称,新东方旗下的东方甄选遭遇抖音限流。...
日期:08-09
业绩向好,B站为何还要裁员?_b站 亏损
  B站预计将在2024年实现盈亏平衡,除了裁员,B站还需要进一步优化各项业务  文 | 刘以秦 郑可书  编辑 | 刘以秦  上周,视频平台B站开始新一轮裁员。  一位B站员工称,...
日期:12-16