您的位置:首页 > 互联网

王小川是干嘛的「王小川大模型首亮相!70亿参数霸榜,清北抢先用」

发布时间:2023-06-15 20:25:01  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:好困 桃子,授权转载发布。

时隔两个月,王小川组建的「百川智能」在6月15日正式推出首个70亿参数中英文预训练大模型——baichuan-7B。

baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。

目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。

王小川怎么了

Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7B

Github:https://github.com/baichuan-inc/baichuan-7B

Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

多个中文评估基准拿下7B最佳

为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个最具影响力的中文评估基准进行了综合评估,并且均获得了优异成绩,它已经成为同等参数规模下中文表现最优秀的原生预训练模型。

王小川 ceo

在AGIEval的评测里,baichuan-7B综合评分达到34.4分,远超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。

在中文C-EVAL的评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分,甚至比某些参数规模更大的模型还要出色。

在Gaokao评测中,baichuan-7B的综合评分达到了36.2分,显著领先于同参数规模的各种其他预训练模型。

王小川 ai

https://cevalbenchmark.com/static/leaderboard_zh.html(2023-06-15)

AGIEval评测基准由微软研究院发起,旨在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。

C-Eval评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。

Gaokao评测基准是复旦大学研究团队创建的评测框架,以中国高考题目作为数据集,用于测试大模型在中文语言理解和逻辑推理能力方面的表现。

MMLU基准大幅领先LLaMA-7B

baichuan-7B不仅在中文方面表现优异,在英文上表现同样亮眼。

在MMLU的评测中baichuan-7B综合评分高达42.5分,大幅领先英文开源预训练模型LLaMA-7B的34.2分以及中文开源模型ChatGLM-6B的36.9分。

王小川是干嘛的

MMLU由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。

万亿数据、4K上下文、高效稳定训练

训练语料对大模型的训练结果至关重要。在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。

具体来说,原始数据包括自行抓取的海量中英文互联网数据和部分开源的中英文数据,以及大量高质量知识性数据。

王小川多大

在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选。

在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。

相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。

在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的业界领先水平。

同时,已有的开源模型窗口长度在2K以内,对于一些长文本建模任务,如需要引入外部知识做搜索增强的场景,更长的处理长度有助于模型在训练与推理阶段捕获越多的上下文信息,2K的处理长度存在比较大的制约。

王小川是干嘛的

经过优化的分词算法

baichuan-7B基于高效的attention算子优化实现了万级别超长动态窗口的扩张能力,本次开源的预训练模型开放了4K上下文窗口,使模型应用场景更加广泛。

此外,baichuan-7B还对模型训练流程进行了深度优化,采用了更科学且稳定的训练流程和超参数选择,使得 baichuan-7B模型的收敛速度大大提升。

apu a10处理器

与同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。

王小川个人

开源免费可商用,清北已抢先体验

秉持开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。

baichuan-7B此次开源的内容十分丰富,包含了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。

其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用;预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。

据了解,北京大学和清华大学两所顶尖大学已率先使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。

清华大学互联网司法研究院院长、计算机系教授刘奕群认为, baichuan-7B模型在中文上的效果表现十分出色,它免费商用的开源方式展现出开放的态度,不仅贡献社区,也推动技术发展。团队计划基于baichuan-7B模型开展司法人工智能领域的相关研究。

北京大学人工智能研究院助理教授杨耀东认为,baichuan-7B模型的开源将对于中文基础语言模型的生态建设及学术研究产生重要推动作用,同时他也表示将持续关注相关领域探索,并且在中文大语言模型的安全和对齐上进行进一步深入研究。

百川智能CEO王小川表示:「本次开源模型的发布是百川智能成立2个月后的第一个里程碑,对百川智能而言是一个良好的开局。baichuan-7B模型,不仅能为中国的AGI事业添砖加瓦,也为世界大模型开源社区贡献了新的力量。」

技术团队专访

Q:baichuan-7B如何处理幻觉问题,未来该如何提高结果正确性?

A:大模型在可见的未来还不能彻底解决幻觉问题,一方面通过强化学习来让模型知道自己不知道,有效缓解幻觉,更重要的是需要靠「搜索增强」引入外部知识来逐步解决幻觉问题。

Q:baichuan-7B能带来哪些商用价值?

A:baichuan-7B作为在多个榜单评测效果成绩最佳的7B开源可商用大模型,填补了市场上缺乏优质的针对中文优化的7B大模型的空白,是开发者理想的7B大模型底座。同时在商用价值方面,能够在例如文本生成,自动化写作,数据分析,知识问答,中英翻译,个性化交互和专业领域个人小助手,比如医疗领域,给用户带来巨大的价值。

Q:baichuan-7B在评测榜的成绩达到最初的训练模型预期了吗?

A:打榜并不是我们的目的,我们相信好的数据和算法能力,评测自然会有好的结果,这次baichuan-7B在多个最具影响力的评测中的优异表现也验证了百川的这个理念。

参考资料:

https://github.com/baichuan-inc/baichuan-7B


返回网站首页

本文评论
B站:7987位BLG观赛全勤用户的年度大会员发放完毕
快科技5月22日消息,在昨晚的《英雄联盟》季中冠军赛(MSI)决赛中,JDG(京东)3:1击败BLG(哔哩哔哩),赢下中国LPL的内战”,队史首次捧起MSI冠军奖杯。同时,这也是LPL赛区在MSI比赛上的三连...
日期:05-23
特斯拉车机上线苹果音乐 还包括微信小程序、芒果TV等功能应用
1 月 11 日讯:据@小特叔叔消息,在特斯拉最新发布的2022.44.30. 8 更新中,Apple Music服务、微信小程序、芒果TV等功能在特斯拉车机上线。iphone14挖孔屏是真的苹果15功能展示...
日期:01-11
京东上门换新服务新增催收功能「京东催促售后尽快处理」
9月29日 消息:今日,京东京麦商家中心宣布,京东为优质用户提供的售后特色服务“上门换新”新增催收功能。据介绍,上门换新是为优质用户提供的一项售后特色服务。当信誉等级在3星...
日期:10-06
马斯克说钱只是「现金拮据的马斯克 现在连借钱都难了」
凤凰网科技讯 北京时间12月24日消息,眼下,埃隆马斯克(Elon Musk)的巨额财富和借贷能力正受到特斯拉公司的考验。就在他急于稳定自己在推特公司的巨额个人投资之际,曾推动他财富...
日期:12-24
质检“白大褂”走进苏宁小店 双十一买得便宜也要还买得干净
  双十一不仅要买的便宜,还要买的放心。   现在每个电商平台打折活动都玩得火热,激发了消费者的剁手欲望。但是,每到双十一都会出现买家秀和卖家秀的“惨烈”对比,其中,质量...
日期:12-17
2019年中国数字阅读用户总量「中国数字阅读成年人比例达76.9%  Z世代年均读书超11本」
凤凰网科技讯 4月21日消息,世界读书日到来之际,上海图书馆、《中国新闻出版广电报》、阅文集团共同发布《Z世代数字阅读报告》(以下简称《报告》)。猴哥广州车展摩托罗拉折叠手...
日期:04-21
港股快手为什么跌「港股美团收跌超9% 快手跌超4%」
  讯 8月16日下午消息,香港恒生指数收跌1.05%,恒生科技指数收跌2.03%。港股美团收跌超9%,盘中市值一度跌破万亿港元。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。...
日期:09-29
互联网是通过什么思维进行赚钱的_互联网免费的逻辑 想赚钱你得足够有钱
  周鸿祎是“免费”的坚定支持者,我在机场看到电视上一档对他的专访,他就认为,把免费服务做好,就会有用户。只要有足够的用户,你总能找到赚钱的方法。有那么一点谷歌所谓“以...
日期:07-27
百度联盟赴沪探望小伊伊 “联盟爱”展现爱心力量
  记者获悉,在“7.23动车事故”中的幸存女孩伊伊,日前收到了百度联盟“联盟·爱”自发捐助的首笔善款、爱心贺卡和玩具等礼物,由“联盟·爱”代表赶赴上海交到伊伊和她的家...
日期:07-22
熊孩子井盖内扔鞭炮被炸飞 视频「堪比火箭发射现场!熊孩子下水道中放鞭炮:井盖瞬间被炸飞」
这绝对是截至目前最为激烈的鞭炮炸飞窨井盖的事故之一了。近日,有博主上传了一段小区监控视频,看过之后让人直呼惊险,甚至有网友坦言,这是火箭发射现场。据监控画面看,事发时间为...
日期:01-29
巴菲特原话「巴菲特体验ChatGPT后感到担忧 将AI比作原子弹」
【网易科技5月8日报道】近几个月,AI的快速发展让科技圈迎来了“大地震”。近日,巴菲特在伯克希尔哈撒韦公司年会上发表对于人工智能的观点,表示对其快速发展感到担忧。据巴菲特...
日期:05-08
Meta将停止对初代Quest VR头显的功能更新和安全支持
1月11日 消息:据外媒报道,Meta 正在放弃对其初代 Quest VR 头显 的支持。该设备将不再接收未来的内容更新,到2024年它将不再获得任何功能更新和安全修复。虽然 Meta 承诺用户...
日期:01-11
海外邮件收发不畅,U-Mail邮件中继轻松应对(发邮件到国外邮箱失败)
  据第三方报告显示,目前中国企业与海外客户的商务沟通80%都是依靠电子邮件作为基本的信息沟通交流方式,但是几乎所有企业在和海外客户发送电子邮件的时候,都曾出现过邮件被...
日期:04-25
电商狂魔拼多多,为什么不做物流
声明:本文来自于微信公众号 电商报Pro(ID:kandianshang),作者:月涯,授权转载发布。拼多多,缺席电商物流牌桌拼多多,没有物流护城河。拼多多,在国内电商史上是一个奇迹。两年交易额...
日期:02-13
丁雄军茅台集团_丁雄军:“i茅台”App上线两个多月营业额超60亿元
财联社8月2日电,在2022亚布力中国企业家论坛天津峰会上,茅台集团党委书记、董事长丁雄军表示,茅台拥有长期贮存的优质基酒资源,酒库里存了几十万吨基酒,按照市场价值计算的话,是好...
日期:08-04
支持华为HMS Pad 50 Pro发布:仅899元_华为m5pro平板参数10.8
日前Pad 50Pro平板发布,售价为999元,首发到手899元。新款平板搭载10.5英寸100%的sRGB色域显示全视角屏幕,具有8G 256G存储组合。搭载华为HMS服务,打造更畅快、更丰富、更安全的...
日期:05-06
vivo S9与红米k40_“三足鼎立”!vivo s9、红米K40、真我GT同日官宣代言人
  ITBEAR2月22日消息,在2021年的第一季度,同时也是很多新机亮相的好时候。这不,vivo s9、Redmi K40系列以及realme真我GT三家几乎在今日同时官宣自家品牌代言人,给人一种“三...
日期:07-16
闪存降价太狠 SSD利润暴跌:都不如HDD机械盘有钱赚_ssd降价趋势
今年NAND闪存遇到了大熊市,价格跌的厉害,SSD硬盘的价格也直线滑落,我们昨天推荐了多款2TB及以上的SSD,价格可以做到799元了。对消费者来说,现在SSD价格很爽,然而对厂商来说,现在的...
日期:11-08
腾讯控股2021年回购计划「腾讯控股:回购127万股,共耗资约3.5亿港元」
  财联社9月28日电,腾讯控股9月28日回购127万股,回购价格为273.6-279.8港元,共耗资约3.5亿港元。金立m7安全加密芯片iphone后壳变形印度高端手机市场2018年数据出炉:一加成销...
日期:09-29
男子下班遇领导按住电梯要求加班 后续来了:获赔偿离职「陪领导乘电梯」
10月12日,浙江杭州。李先生下午六点半下班,却遇到领导按住电梯要求加班。李先生表示,领导说任务没完成,大家都在加班,他怎么好意思下班。随后他坚持下班,被领导私聊批评。据老板联...
日期:10-21