您的位置:首页 > 互联网

清华744「编码碾压ChatGPT!UIUC清华联手发布7B参数Magicoder,代码数据权重全开源」

发布时间:2023-12-20 02:33:02  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】全新代码大模型Magicoder,不到7B参数,就能在代码生成领域与顶级代码模型不相上下。

开源代码大模型来了!

UIUC清华团队的研究人员发布了Magicoder,不到7B参数,就能在代码生成领域与顶级代码模型不相上下。

值得一提的是,Magicoder的代码、权重和数据,毫无保留完全开源。

论文地址:https://arxiv.org/abs/2312.02120

Magicoder依靠的OSS-INSTRUCT的方法,是通过对现有顶级代码模型(例如ChatGPT)的提示,加上网络上的种子代码片段,来生成的代码。

这可真是取之于大模型,用之于大模型;就有网友转发说道:通过这些结果,看到了提高用于LLMs的合成数据的潜力也是一个非常有趣的领域。

话不多说,那就让我们来具体了解一下Magicoder的来历吧!

代码生成的发展史

代码生成(Code Generation),也叫程序合成(Program Synthesis),近几十年来,一直都是学术界的一块硬骨头,在此领域进行过的许多尝试,例如基于抽象的合成和基于示例的编程,都没有取得很好的效果。

直到最近,使用在代码上训练的大型语言模型取得了显著的突破,被广泛应用于辅助实际软件开发。

最初,诸如GPT-3.5Turbo和GPT-4之类的闭源模型主导了各种代码生成基准和排行榜。

为了推动开源LLM在代码生成领域的应用,SELF-INSTRUCT方法被开发出来,通过使用强大的LLM生成合成的编码指令,并利用这些指令对较弱的学生模型进行微调,以从强大的教师模型中提取知识。

f-droid 清华

然而,SELF-INSTRUCT在提高LLM的指令遵循能力时,仍然依赖于狭窄范围的预定义任务或启发式方法。

为了解决这一问题,UIUC和清华的研究人员提出了Magicoder,其中采用的OSS-INSTRUCT方法,旨在减轻LLM固有的偏见,通过直接学习开源代码释放其创造高质量和创意编码指令的潜力。

OSS-INSTRUCT通过从开源中搜集的随机代码片段获得灵感,自动生成新的编码问题。借助于不同的种子代码片段,OSS-INSTRUCT能够直接产生多样、真实和可控的编码指令数据。

如下图所示,在这个例子中,LLM从两个不同函数的不完整代码片段中获取灵感,成功地将它们关联起来,并构建出一个现实的机器学习问题。

由于OSS-INSTRUCT与现有的数据生成方法是正交的,OSS-INSTRUCT可以被同时结合使用,进一步推动模型在编码任务中的能力。

为什么OSS-INSTRUCT如此神奇?

OSS-INSTRUCT的工作方式是通过对LLM(例如ChatGPT)进行提示,然后根据从互联网搜集的一些种子代码片段(例如来自GitHub)生成编程问题及其解决方案。

三星s10 5g版本

一方面,种子片段提供了生成的可控性;

另一方面,OSS-INSTRUCT加强了LLM创建编程问题的多样化,更符合真实的编程场景。

我们可以从以下几个指标中一探究竟:

1. 类别平衡

如下图所示,通过计算OSS-INSTRUCT中每个样本的嵌入与这10个类别之间的余弦相似性,可以看出其在不同类别之间表现出了多样性和平衡。

京东热8购物节

清华的代码

2. 长度分布

下图展示生成问题和解决方案的长度分布,良好的平衡性让OSS-INSTRUCT更贴合实际应用场景。

3. 与HumanEval的相似性计算

下图展示了与HumanEval样本的余弦相似性。

可以看出,OSS--INSTRUCT在所有研究的数据生成技术中表现出最低的平均相似度,这说明OSS--INSTRUCT生成的数据是最富有多样性的。

但是,既然OSS-INSTRUCT获取到的种子片段来自于开源代码,为什么不直接在这些开源代码上进行微调呢?

为了回答这个问题,研究人员遵循CodeSearchNet,使用基础的CODELLAMA-PYTHON-7B对配对数据进行了2个时期的微调,遵循相同训练设置。

对比结果如下表,在75,000个配对注释-函数数据上,微调甚至使基础模型恶化,而OSS-INSTRUCT有助于引入实质性的提升。

研究人员推测,这种恶化可能是由这些配对数据固有的大量噪声和不一致性导致的。

美国网络泄密事件

这进一步表明,数据的真实性对于代码指令调整至关重要,而非格式。

该结果还凸显了OSS-INSTRUCT的优越性,可以将这些松散相关的代码片段转化为语义一致的指令调整数据。

Magicoder表现评估

研究团队首先构建了使用OSS-INSTRUCT进行训练的Magicoder系列,同时进一步组合使用OSS-INSTRUCT和Evol--INSTRUCT构建了MagicoderS系列,并在两个系列上都进行了测试。

代码生成基准使用的是HumanEval和MBPP,这是目前两个最广泛使用的基准。这些基准中的每个任务都包括一个任务描述(例如docstring)作为提示,然后让LLMs生成相应的代码。其正确性由少量测试用例进行检查。

为了更严格的评估,研究人员还使用了由EvalPlus框架支持的HumanEval+和MBPP+以获取更多的测试。

值得注意的是,MagicoderS-CL和MagicoderS-DS在HumanEval+上的表现都优于只有7B参数的ChatGPT。

让我们具体看下Magicoder的表现:

1. Python语言

f droid清华

我们首先可以观察到Magicoder-CL相在HumanEval和HumanEval+上相对于CODELLAMA-PYTHON-34B有了实质性的改进。

MagicoderS-CL在HumanEval+上优于ChatGPT和所有其他开源模型。

此外,尽管在HumanEval上得分略低于WizardCoder-CL-34B和ChatGPT,但在更严格的HumanEval+数据集上超过了它们,这表明MagicoderS-CL可能生成更稳健的代码。

2. 其他编程语言

在除了Python之外的语言对比中,Magicoder-CL在所有研究过的编程语言中都大幅超过了基础的CODELLAMA-PYTHON-7B。

此外,MagicoderS-CL在所有编程语言上都进一步改进了Magicoder-CL,仅使用7B参数就实现了与WizardCoder-CL-34B相当的性能。

值得注意的是,Magicoder-CL仅使用非常有限的多语言数据进行训练,但仍然优于其他具有相似甚至更大规模的LLMs。这意味着LLMs可以从数据中学习超出其格式的知识。

3. 数据科学库

最后,针对7个热门Python数据科学库的1,000个独特的数据科学编码问题(DS-1000dataset),研究人员也进行了单元测试,旨在评估LLMs在实际用例中的表现。

从表中可以看出,Magicoder-CL-7B已经在所有评估的基线中表现出色,包括最先进的WizardCoder-SC-15B,改善了8.3个百分点。

虽然Magicoder还不够完美,但作者认为,通过公开分享所有的数据和代码细节,会有越来越多的先进代码模型出现。

让我们也拭目以待。

参考资料:

https://arxiv.org/abs/2312.02120


返回网站首页

本文评论
苹果2023款M2 Pro版MacBook Pro SSD性能下降_macbook内存
IT之家 1 月 25 日消息,据 9to5 Mac 报道,通过快速浏览基本款 M2 Pro MacBook Pro 的内部,发现了一些新料。与基本款 M2 MacBook Air 一样,2023 最新的 14 英寸 MacBook Pro 的...
日期:01-25
MIUI 14即将登场 产品经理:目标是重回「归来仍是miui是谁说的」
今日消息,小米产品经理魏思琪与网友互动时表示,MIUI 14目标时重回巅峰。此前MIUI负责人金凡称MIUI 14目标之一是要做最精简轻巧的旗舰手机系统 。不难看出,这次MIUI 14将会对系...
日期:11-26
从入门到放弃 谷歌 Stadia 云游戏平台正式关闭
1月19日 消息:据国外媒体报道,谷歌今天正式关闭旗下 Stadia 云游戏服务。这个苦苦支撑了三年之久的云游戏项目,正式宣布结束。网秦手机软件该服务于 2019 年 11 月推出,旨在支...
日期:01-19
小鹏p7 ff91「小鹏 X9 预售价 38.8 万元起 标配后轮转向」
11月17日 消息:小鹏汽车在2023广州车展上发布了全新的纯电MPV车型X9,该车正式开启预售,价格为38.8万起。小鹏X9预计将于今年12月到店展出,明年1月份开启交付。在发布会现场,何小...
日期:11-17
macOS Big Sur11.3.1「苹果 macOS Big Sur / Catalina 的 Safari 15.6.1 正式版发布,修复严重漏洞」
  8 月 21 日消息,苹果本周发布了 iOS 15.6.1 和 macOS Monterey 12.5.1 正式版,两者都具有安全增强功能。为了将这些安全增强功能带给更多用户,苹果发布了适用于运行 macO...
日期:09-14
男子专挑同品牌车辆盗窃:干过修车 发现这品牌车辆门锁脆弱_技术开锁车门盗窃
小区内同一品牌的车辆接连被盗,这样的盗窃案听上去就蹊跷。据报道,近日,上海普陀,一男子在汽修店做学徒期间,发现某品牌车辆门锁脆弱,便开始在小区车库内专门寻找该品牌的车辆,用工...
日期:11-18
AIGC音乐的中场战事:从技术、产品到商业规则_ai音乐公司
声明:本文来自于微信公众号音乐先声(ID:nakedmusic),作者:音乐先声,授权转载发布。最近,谷歌围绕着AIGC音乐打出了一套“组合拳”。11月16日,谷歌旗下 DeepMind发布了最新的AIGC音乐...
日期:11-23
南京200多斤野猪把玻璃门撞到粉碎!现场监控曝光:瞬间击碎_野猪被撞死
据报道,近日南京鼓楼警方接到报警称,一只野猪撞将玻璃门撞得粉碎。通过监控画面可以看到,野猪力大无比,在撞到玻璃门的瞬间就将其击碎,并调转方向迅速逃跑。民警到达现场后,将野猪...
日期:06-26
2022德勤中国高科技高成长50强及明日之星榜单揭晓_德勤高科技、高成长中国50强
1月10日消息,“2022德勤中国高科技高成长50强”和“德勤中国明日之星”榜单今日揭晓。报告显示,50强企业三年营收增长率均值为1656%,比2021年略有下降,但营收规模明显上升,营收过...
日期:01-10
双12来了,支付宝iOS版10.1.80更新_官方支付宝10.1.12版本
  12月5日消息 近期,支付宝iOS版App迎来更新,版本升级到v10.1.80。双12来了,12月用支付宝,线下付款累计达【20天】,就能瓜分【亿元奖池】。   蚂蚁金服旗下的支付宝,是以每...
日期:09-03
网友称外滩夜景灯光太土 官方回应:将予以参考_外滩夜景亮灯时间
外滩夜景被认为是上海必打卡之地,但其呈现的效果在部分人看来并不尽如人意。近日在网络留言板上,有市民称上海外滩夜景灯光太土,有一种浓浓的乡镇味道”。oppo find x60redmi平...
日期:06-30
行业唯一双驱精控!卡萨帝热水器实现恒温_卡萨帝acme恒温
  在生活中,本该舒适的沐浴体验却时常会被忽冷忽热的水温所打断。好在,恒温热水器解决了这个问题。但值得注意的是,有些所谓的恒温热水器,“恒温”效果并不理想,核心问题就出现...
日期:11-30
科技企业家 Hogarth 将领导英国的人工智能安全工作组「英国人工智能之父」
6月19日消息:英国政府周日表示,科技企业家 Ian Hogarth 将负责领导其新成立的专责小组,研究人工智能带来的安全风险。上周,英国首相里希·苏纳克将伦敦推举为人工智能监管的全...
日期:06-19
iPad新品发布会即将来袭 新 iPad Air 等三款新品即将上市_ipad2021新款发布会
苹果即将举行iPad新品发布会,时间定在10月17日。此次新品包括新款iPad mini、iPad Air和入门级iPad等产品。虽然这些产品的规格提升较小,但会配备更快的芯片。其中,新一代iPad...
日期:10-16
windows8的新特性_Windows 8最值得期待的8大特性
  Windows 8刚刚进入开发阶段,你对Windows 8有什么期待呢?Windows 8有望在2013年初发布,在未来两年内技术领域会发生什么样的变化呢?移动技术和云计算服务的飞速发展对Window...
日期:07-26
回国指导阿里后 马云开始周游世界:最新现身巴基斯坦_马云已经到国外了
(原标题:回国指导阿里后 马云开始周游世界:最新现身巴基斯坦) 快科技7月4日消息,马云前不久回国指导阿里巴巴工作之后,就开始了周...
日期:07-04
Stable diffusion哪里可以下载免费的Model 免费模型下载地址
Stable diffusion通过模型可以节省下很多时间来创作,那么有哪些地方可以下载到免费的Model模型,对于大多数的用户而言,在国外已经有比较成熟且丰富的模型提供网站,这里我们来看...
日期:03-23
英伟达9月停止对中国芯片供应_英伟达、英特尔、AMD等芯片巨头集体萎靡,PC销售热潮已退
小米手机一年销售额奥巴马iPhone   过去近两年,当疫情期间人们被隔离在家时,PC出货量出现爆发式增长。而现在,这样的增长终于消失。   当地时间8月8日,存储芯片公司美光警告...
日期:08-15
华硕灵耀14可以触屏吗「华硕新款灵耀 X 14 上架,触控板副屏设计,首发 8799元」
IT之家 9 月 14 日消息,华硕新款灵耀X 14 现已上架官方商城,采用了 14 英寸 2.8KOLED屏,还拥有触控板副屏设计,首发价 8799 元。删除微软浏览器edgeIT之家了解到,该机搭载了英特...
日期:09-17
新时代中的联通青年 新征程上的铁军队伍
通信世界网消息(CWW)作为使命在肩的通讯企业“国家队”,在这里有一群朝气蓬勃、勇担时代重任的青年,他们在平凡的岗位上奋斗奉献,在急难险重任务中冲锋在前,用实际行动践行为民承...
日期:07-31