您的位置:首页 > 互联网

数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软出品

发布时间:2023-08-15 00:52:23  来源:互联网     背景:

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

用AI生成的指令微调羊驼大模型,数学能力超ChatGPT——

微软最新开源大模型WizardMath来了。



东南亚小腾讯市值

如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型——

华硕顽石yx570zd跟华硕gtx1050的区别

并且是在参数只有700亿,远不及后三者的情况之下。



HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。

比如解决下面这道四次多项式方程:



或者是一道简单的微积分:



亦或者是稍微修改过的拉格朗日方程推导:



它都全部正确(过程也不需要等太久)。

有网友向作者表示:

用iPhone控制iPad

效果真的很惊人,感谢你们对开源LLM的贡献。



目前,相关代码、复现方式以及论文也都开源或上线,GitHub短短几天已揽获4.8k标星。



那么,WizardMath究竟是如何做到的?

用AI生成的指令增强大模型能力

OpenAI的大模型(InstructGPT、GPT-4等)能够取得巨大成功、去执行各种复杂和多样化的任务,一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。

然而,不是谁都能像这家公司一样获得这样的指令数据集。

一是因为整个注释过程极其昂贵且耗时,二是人工难以创建出足够比例的高难度指令。

因此,开发出一种成本相对较低的、大规模开放域指令自动生产方法,成为当下指令调优语言模型的关键。

在此,作者将他们的方法命名为Evol Instruction。

它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。

具体而言,Evol Instruction分为指令进化器和指令消除器。

其中指令进化器可通过深度进化(蓝线)或广度进化(红线)两种路径,将简单指令升级为更复杂的指令或创建一条全新指令。

具体执行哪一条?随机选择就好。



其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:

添加约束(add constraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increase reasoning steps)和使输入复杂化(complicate input)。

由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。

以下是一个具体示例,该方法从“1+1=?”开始,最终通过以上步骤自动生成了相当多的新指令。

红米note 9pro如何提升流畅



通过重复这一生成过程,最终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。

在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,最终获得25万条指令。

为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA 7B模型,最终得到WizardLM,结果WizardLM的性能明显优于Vicuna。

(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)

此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。

基于此,作者又利用Evol Instruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath。

其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM 2之后。

以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)。



团队介绍

本文共9位作者,全华人。

一作有3位:

Can Xu,微软亚洲互联网工程院S+D NLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;

Qingfeng Sun, Microsoft Research科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为Microsoft Bing和Office 365贡献了核心深度模型;

Kai Zheng,Microsoft Research科学家,研究方向为自然语言处理、搜索和推荐排名,同样为Microsoft Bing和Office 365贡献了核心深度模型。



通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业。

另还有一位作者Jiazhan Feng,是北大学生,这篇合著论文是TA在微软实习时产出的。

项目主页: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

论文地址:
https://arxiv.org/abs/2304.12244(WizardLM)
https://arxiv.org/abs/2306.08568(WizardCoder)


返回网站首页

本文评论
工商局档案曝光 金山CEO傅盛在职私办公司谋利
  最近,360公司在香港起诉了前员工、现任金山网络CEO傅盛,指责其违反了与公司签订的协议。据360公司副总裁石晓虹最新提供的证据显示,傅盛在入职360仅一个月就私自开办有竞...
日期:07-23
我的成功可以复制 访80后CEO李想
  28岁的李想,就是这样一个成功者。他高中毕业后放弃读大学,醉心于互联网创业,从最初几千元的进账到一亿以上身价,用了不过短短的四年。他的泡泡网也从最初的个人网站,发展为...
日期:07-30
《阿凡达2》预测票房跌破10亿,贺岁档还能拼出黑马吗?「阿凡达再次上映票房」
声明:本文来自于微信公众号娱乐独角兽(ID:yuledujiaoshou),作者:李欣媛,授权转载发布。千呼万唤盼来的《阿凡达2》果然不负众望,上映1天票房破2亿,票房占比高达97.8%,一举带动影院...
日期:12-22
比亚迪H股连涨5天后 “股神”巴菲特再度减持_比亚迪h股公告是利好利空
11月4日消息,港交所文件显示,巴菲特旗下的伯克希尔哈撒韦,于11月1日以169.87港元的价格卖出329.7万股比亚迪H股,持股比例降至17.92%,本次套现5.6亿港元。驱动程序模型:wddm2.0巴...
日期:11-10
宝尊电商在港交所主板主要上市_宝尊电商,股票
11月1日 消息:今日,宝尊电商宣布,公司自愿将其在香港联合交易所有限公司(“香港联交所”)的第二上市地位转换为主板主要上市的事项于今日生效。宝尊现为在香港联交所及纳斯达克...
日期:11-05
蔚来手机入网:最快下月发布 卖7000多「蔚来app什么时候上线」
蔚来汽车的首款手机已经正式获得了工信部无线电核准,这意味着产品的设计已经完成,现在只需要等待三证齐全,即可准备上市。波音和spacex灵魂有香气的女子李筱懿自传蔚来汽车创始...
日期:06-21
告别实体SIM卡!小米推出首款eSIM手机小米12T Pro国际版「小米内置esim卡」
说起eSIM,一些朋友恐怕并不陌生。实际上,市面上已经有了不少支持eSIM的智能手表,也就是空中开卡,无需再办理或者插入实体SIM卡。今年的iPhone 14系列更是激进,美版只有eSIM款式,彻...
日期:10-12
印度部长:我们将在五六年内成为主要芯片制造国_印度芯片产量
重磅活动推荐:来源:内容来自businesstoday印度数十年来成为半导体制造中心的梦想终于朝着正确的方向发展。IT 和电子部长 Ashwini Vaishnav 在 Business Today 的 India@100...
日期:08-29
赶快买起来!华为Mate 50官网新增现货速发_如何抢购华为mate 40
今日华为官网显示,华为Mate 50部分版本新增了“现货速发”的选项,喜欢华为手机的小伙伴儿可以赶快抢起来了。华为 Mate 50巴黎饰钉设计,更显高端优雅,有冰霜银、耀金黑、流光紫...
日期:11-13
IBM 和 NASA 在 Hugging Face 上部署开源地理空间 AI 基础模型_地理空间数据网站
8月4日消息:IBM 和开源 AI 平台 Hugging Face 宣布,IBM 的 watsonx.ai 地理空间基础模型——使用 NASA 的卫星数据构建——现在将在 Hugging Face 上公开提供。它将成为 Hugg...
日期:08-04
精准狙击五环外:娱乐大号纷纷试水趣头条号
  开播一个月,《都挺好》热闹了一个月,苏大强从全民恶评到一集洗白,也折腾了一个月。   拥有极强影响力的娱乐领域头部大号萝严肃昨日犀利发文《“你接受苏大强的‘洗白’...
日期:08-06
网易云音乐首款音乐社交App MUS开放注册_网易云音乐官方api
  蓝鲸TMT 费腾 图片来源:东方IC 富士施乐2025  蓝鲸TMT频道9月27日讯,网易云音乐首款音乐社交App MUS正式开放注册。据悉,MUS是一款匹配音乐同好的社交App。  今年3月底...
日期:09-30
修补难度太大 俄罗斯将于2月发射备用飞船并接宇航员回家「美国宇航员破坏俄罗斯飞船」
1月12日消息,当地时间周三俄罗斯航天局表示,俄罗斯航天局计划于今年2月下旬向国际空间站发射一艘备用的联盟号飞船,替换目前停靠在空间站的受损飞船,将三名宇航员接回地球。据悉...
日期:01-12
苹果4代「苹果4代是什么手机」
苹果公司推出的iPhone 4代是一款革命性的智能手机,自2010年6月发布以来受到了广泛的赞誉。该手机配备了许多新功能和设计元素,使其成为当时的一款顶级手机。初代htcvive虚拟现...
日期:06-03
211文科男硕士吐槽均薪5500引争议 建议大家一定要考985大学_文科男生985有什么好的院校
最近,上海市举行了多场面向高校毕业生的线下招聘会。博主“严肃的虾米”参加完毕业生招聘会后发布了一段视频,吐槽该招聘会提供的平均薪资只有5500元。该视频引发了网友的不同...
日期:03-01
Chrome OS 10 周年:谷歌宣布将增加手机电脑联动和隔空投送等新功能
  3 月 10 日消息 谷歌在其官方博客昨日发文,表示为庆祝 Chrome OS 诞生十周年,将会开启一波大更新,推出 Phone Hub、Nearby Share、Quick Answers 和新的截屏工具,并增强剪...
日期:07-16
谷歌强调人工智能生成内容并非「受搜索引擎欢迎」:没有优化网站排名的神奇能力
7月21日消息:谷歌搜索联络人 Danny Sullivan 日前回应了 Vox Media 的报道,其中 G/O 编辑总监 Merrill Brown 声称 AI 内容目前「受搜索引擎欢迎」。Sullivan 表示:「AI 内容...
日期:07-21
金山推出装机精灵测试版 一键解决初级用户装机难(金山装机必备)
  4月22日消息,金山网络今日开始内部测试其首款装机软件——金山装机精灵。该产品功能集中于安装驱动、重装系统等更为基础的服务,为普通电脑用户提供更加傻瓜化的一键式操...
日期:07-27
最便宜的台式电脑「最便宜的台式电脑一套多少钱」
在当今数字化时代,电脑已成为必需品。特别是台式电脑由于其性价比高、性能稳定等优点,在家庭及办公场所得到广泛应用。在市面上,有许多品牌的台式电脑,价格从几百元到几千元不等...
日期:05-29
蚂蚁定制「蚂蚁集团正研发大模型 定名贞仪」
(原标题:独家|蚂蚁集团正研发大模型 定名贞仪) 《科创板日报》21日讯,《科创板日报》记者独家获悉,蚂蚁集团的技术研发团队正在自...
日期:06-21