您的位置:首页 > 互联网

微软祭出代码大模型WaveCoder!4项代码任务2万个实例数据集,让LLM泛化能力飙升

发布时间:2024-01-08 22:33:41  来源:互联网     背景:


新智元报道

编辑:桃子

【新智元导读】指令调优或许是让大模型性能提升最有潜力的方法。

用高质量数据集进行指令调优,能让大模型性能快速提升。


对此,微软研究团队训练了一个CodeOcean数据集,包含了2万个指令实例的数据集,以及4个通用代码相关任务。

与此同时,研究人员微调了一个代码大模型WaveCoder。


论文地址:https://arxiv.org/abs/2312.14187

实验结果表明,Wavecoder优于其他开源模型,在以前的代码生成任务中表现出色。

指令调优,释放代码大模型潜力

过去的一年,GPT-4、Gemini、Llama等大模型在一系列复杂NLP任务中取得了前所未有的性能。

这些LLM利用自监督预训练的过程,以及随后的微调,展示了强大的零/少样本的能力,能够有效遵循人类指示完成不同的任务。

然而,若想训练微调这样一个大模型,其成本非常巨大。

因此,一些相对较小的LLM,特别是代码大语言模型(Code LLM),因其在广泛的代码相关任务上的卓越的性能,而引起了许多研究者的关注。

鉴于LLM可以通过预训练获得丰富的专业知识,因此在代码语料库上进行高效的预训练,对代码大模型至关重要。

包括Codex、CodeGen、StarCoder和CodeLLaMa在内的多项研究已经成功证明,预训练过程可以显著提高大模型处理代码相关问题的能力。

此外,指令调优的多项研究(FLAN、ExT5)表明,指令调优后的模型在各种任务中的表现符合人类预期。

这些研究将数千个任务纳入训练管道,以提高预训练模型对下游任务的泛化能力。

苹果手机才有的

比如,InstructGPT通过整合人类标注者编写的高质量指令数据,有效地调整了用户输入,推进指令调优的进一步探索。


斯坦福的Alpaca利用ChatGPT通过Self-Instruct的方法,自己生成指令数据,进而用于指令调优的过程。

WizardLM和WizardCoder则应用了evol-instruct的方法,进一步提高了预训练模型的有效性。

这些近来的研究都体现了,指令调优在提高大模型性能方面,展现出强大的潜力。

基于这些工作,研究人员的直觉是,指令调优可以激活大模型的潜力,然后将预训练模型微调到出色的智能水平。

淘特品牌折扣店

对此,他们总结了指令调优的主要功能:

- 泛化

指令调优最初是为了增强大模型的跨任务泛化能力而提出的,当使用不同的NLP任务指令进行微调时,指令调优可提高模型在大量未见任务中的性能。

- 对齐

预训练模型从大量token和句子层面的自监督任务中学习,已经具备了理解文本输入的能力。指令调优为这些预训练模型提供了指令级任务,让它们能够从指令中提取原始文本语义之外的更多信息。这些额外的信息是用户的意图,能增强它们与人类用户的交互能力,从而有助于对齐。

为了通过指令调优提高代码大模型的性能,目前已有许多设计好的生成指令数据的方法,主要集中在两个方面。

例如,self-instructe、vol-instruct利用teacher LLM的零/少样本的能力来生成指令数据,这为教学数据的生成提供了一种神奇的方法。

然而,这些生成方法过于依赖于teacher LLM的性能,有时会产生大量的重复数据,便会降低微调的效率。

CodeOcean:四项任务代码相关指令数据

为了解决这些问题,如图2所示,研究人员提出了一种可以充分利用源代码,并明确控制生成数据质量的方法。

由于指令调优是为了使预训练模型与指令遵循训练集保持一致,研究人员提出了一个用于指令数据生成的LLM Generator-Disciminator(大模型生成器-判别器)框架。


通过使用生成器和判别器,最新方法可以使数据生成过程,更可定制和更可控。

该方法以原始代码作为输入,选择核心数据集,通过调整原始代码的分布,可以稳定地生成更真实的指令数据,控制数据的多样性。

针对上述挑战,研究人员将指令实例分类为4个通用的代码相关任务:代码汇总、代码生成、代码翻译、代码修复。

同时,使用数据生成策略为4个代码相关的任务生成一个由20000个指令实例的数据集,称为CodeOcean。

为了验证最新的方法,研究人员将StarCoder、CodeLLaMa、DeepseekCoder作为基础模型,根据最新的数据生成策略,微调出全新的WaveCoder模型。

与此同时,研究人员在 HumanEval、MBPP、HumanEvalPack对模型进行了评估,结果表明,WaveCoder在小规模指令调优的基准上拥有出色的性能。


代码数据生成

如上所述,研究人员选择了4个具有代表性的编码任务,并从开源数据集中收集原始代码。

以下具体介绍了训练数据生成过程。

在本节中,我们将介绍我们探索的方法细节。我们首先选择4个代表性的编码任务,并从开源数据集中收集原始代码。

对于每个任务,作者使用GPT-3.5-turbo生成指令数据进行微调。生成提示如表2所示。


如下,是LLM Generator-Disciminator整体架构,也是数据生成的完整过程。


Codesearchnet是一个包含来自 GitHub 上托管的开源库的200万对(注释、代码)的数据集。它包括6种编程语言的代码和文档。我们选择 CodeSearchNet 作为我们的基础数据集,并应用基于 coreset 的选择方法KCenterGreedy来最大化原始代码的多样性。

苹果音乐新功能

具体来说,生成器根据输入(a)生成指令数据。随后,判别器接受输出并生成分析结果,输出(b)包括四个键,研究人员将这些信息作为指令调优的输入和输出。

分析(c)包括每条规则的详细原因和总体答案,以检查样本是否满足所有要求。


实验评估结果

代码生成任务评估

表3显示了两个基准上不同大模型的pass@1得分。从结果来看,我们有以下观察结果:

猎豹移动 傅盛

WaveCoder大大优于使用少于20k指令调优数据(InsT Data)的指令模型训练。

经过微调过程,与基础模型和开源模型的选择相比,最新模型的性能显示出实质性的改善,但它仍然落后于专有模型的指导模型训练超过70k的训练数据。


研究人员还用HumanEvalPack上最先进的Code LLM对WaveCoder进行评分,如表4。


表5列出了WaveCoder在代码汇总任务方面的结果,突出显示了以下显著的观察结果:


参考资料:

https://arxiv.org/abs/2312.14187



返回网站首页

本文评论
交通运输部:加快推进网约车合规化,开展平台抽成“阳光行动”
  1 月 28 日消息,据交通运输部微信公众号消息,1 月 27 日,交通运输新业态协同监管部际联席会议召开 2022 年第一次全体会议,总结 2021 年工作情况,研究部署 2022 年工作安排...
日期:10-01
新局求变,智信未来,ISC 2023信创+AI安全协同创新高峰会圆满召开
   8 月 9 日,由工业和信息化部电子第五研究所、大数据协同安全技术国家工程研究中心主办, 360 集团承办,经开区国家信创园、自主可控新鲜事协办的ISC2023 信创+AI安全协同创...
日期:08-11
国庆假期异地外卖火爆:上海用户吃出最贵一单 高达1.1万_国庆期间外卖多吗
这个国庆假期,伴随着旅游火爆的,还有外卖。淘宝被店长禁止购买三星a53最新消息据国内媒体报道,美团外卖数据显示,十一长假期间,广州、北京、上海等多个热门旅游目的地外卖订单火...
日期:10-05
分手在即 网易给玩家发问卷调查:你还会玩暴雪游戏吗?_网易游戏调查问卷月薪
近段时间,暴雪和网易分手的事情闹得沸沸扬扬,让很多老玩家不知所措。据官方介绍,2023年1月24日0时起,正式停止暴雪游戏产品的运营,关闭战网登录以及所有游戏服务器,同时关闭客户端...
日期:11-30
抖音被判赔腾讯3240万 因《云南虫谷》剪辑片段构成侵权
10月31日 消息:据界面新闻报道,近日,西安市中级人民法院就《云南虫谷》案作出一审判决。原告腾讯公司发现,《云南虫谷》在腾讯视频独播之后,抖音上存在大量用户上传的该剧剪辑片...
日期:11-01
腾讯视频APP升级:480P视频画质增强 不耗额外流量_腾讯视频新画质
快科技9月7日消息,腾讯视频APP升级到了8.9.25版本,480P的老视频也能看高清画质了。在过去,受限于技术原因,很多老电影、老电视剧的分辨率可能都没有达到720P的水平,这就导致观看...
日期:09-07
首个全国生态日,国家林草局联合腾讯科普国家公园五大旗舰物种
2023 年 8 月 15 日是我国首 个“全国生态日”。当日,国家林业和草原局联合腾讯推出系列科普活动,以公众喜闻乐见的创意形式,让国家公园旗舰物种走进人们的数字生活。藏羚羊、...
日期:08-15
今年会出现罕见的寒冬吗?气象局权威回应「气象局今年冷冬」
9月29日,中国气象局举行10月例行新闻发布会。其中就今年冬季气候预测怎么样?在拉尼娜现象的影响下,是否会出现罕见寒冬?”这一问题,官方答疑如下:今年冬季预测产品预计将在10月底...
日期:10-01
中国大陆零部件仅占2%,苹果去中国化的后果是什么?
文/王新喜魅族ceo李楠realme pad国行苹果正在低调的完成去中国化。近日日经济新闻与拆解机构Fomalhaut Techno Solutions合作,对于苹果最新款的iPhone 15系列进行了拆解和成...
日期:10-24
face tools换脸「Face Swap AI Photo Reface官网体验入口 AI换脸工具软件免费下载地址」
Face Swap AI Photo Reface是一款运用人工智能技术的应用,能够将用户的自拍照片快速替换成各种风格的头像,并轻松分享到社交媒体上。用户只需上传一张自拍照片,选择喜欢的风格,...
日期:01-02
微软宣布Win11添加新功能:新增标签功能_win11增加了什么
  ITBEAR科技资讯4月6日消息:微软将没多久在Windows 11中的文件资源管理器中添加标签并更新设计,便于更易于快速访问文件夹或找出最需要的文件。上月,Windows 11测试版第一...
日期:08-27
苹果新专利可将人脸表情实时模拟到类似于《指环王》咕噜的怪物上
IT之家 2 月 7 日消息,苹果于 2015 年 9/10 月收购了总部位于苏黎世的 Faceshift,在消化吸收后推出了 Animoji 和 Memoji。根据美国商标和专利局(USPTO)于 2023 年 1 月 26 日公...
日期:02-07
智谱ai是什么公司「智谱AI推出第三代基座大模型ChatGLM3:适配更多国产芯片」
【网易科技10月27日报道】智谱AI于2023中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。记者获悉,此次推出的ChatGLM3采用了多阶段增强预训练方...
日期:10-27
滴滴出行下架app「滴滴出行App已重新上架安卓应用商店  AppStore尚未上架」
1月17日 消息:滴滴出行App已经在小米应用商店重新上架,最新版本为V6.2.5,而苹果AppStore尚未上架。据官方微博消息,一年多来,滴滴已配合国家网络安全审查,并且进行整改,经过审查办...
日期:01-17
骁龙 8cx gen 2 5g「骁龙 8 Gen3参数配置怎么样 骁龙 8 Gen3性能如何」
高通2023年旗舰处理器骁龙8Gen 3已经发布,该处理器使用了台积电4nm工艺,CPU架构由原来的 4 大核升级为 5 大核,其具体的参数和性能如何呢,我们来一起看下。骁龙8Gen 3工艺是台积...
日期:10-26
大闸蟹销量最多的城市「大众点评:国庆期间大闸蟹到店餐饮订单量同比去年增超四成」
10月10日消息,自9月底阳澄湖大闸蟹开捕以来,大闸蟹的消费热度不断攀升。为了更便捷放心地吃到优质大闸蟹,越来越多消费者选择去线下餐厅。大众点评数据显示,“十一”长假期间,大...
日期:10-11
东北手机电池消耗快「南方游客到哈尔滨后手机电量急降:一次性掉电60%」
近日,哈尔滨的冰雕节吸引了大量南方游客前来游玩。然而,许多游客却遭遇了一个令人头疼的问题:手机掉电。11pro摄像头凸起高度安卓自定义键盘布局一位iPhone用户表示,自己的手机...
日期:12-27
微软紧急召回Outlook问题补丁 360安全卫士可一键修复(Outlook修复)
  近日,微软官方网站发布公告指出,12月漏洞修复中存在一个可能导致Outlook 2007出现故障的补丁程序,并建议已安装该补丁的用户尽快将其卸载,并通过官方产品博客向受影响的用...
日期:07-25
2024年,工信部划了新重点!_工信部2025规划
中央经济工作会议指出要“大力推进新型工业化”、“广泛应用数智技术、绿色技术,加快传统产业转型升级。”那么2023年中国制造业等产业的转型升级取得了哪些成效?2024年又有哪...
日期:01-08
Groupon称将继续保持颠覆理念吸引用户(groupon案例)
      Groupon主编亚伦·维斯(Aaron With)在奥斯汀举行的科技会议上表示,这家团购网站将继续基于“颠覆”理念,构想营销活动以吸引用户和打入新市场。   他表示:“Groupon...
日期:07-26