您的位置:首页 > 互联网

手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天_微软模拟2020官网

发布时间:2023-12-13 21:27:53  来源:互联网     背景:

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。



当贝x3是激光投影

作者 | 程茜
编辑 | 李水青

智东西12月13日报道,昨日晚间,微软又亮出了小模型大招!

微软发布了27亿参数规模的小语言模型Phi-2,经研究人员测试,Phi-2在参数规模小于130亿的模型中展示了最先进性能。

从性能表现看,Phi-2在Big Bench Hard(BBH)、常识推理、语言理解、数学和编码基准测试中,其平均性能得分已经超过70亿、130亿参数规模的Mistral和Llama 2,在部分基准测试中超过谷歌的Gemini Nano 2。

Phi-2还有一大优势是,因为参数规模足够小,其可以在笔记本电脑、手机等移动设备上运行。

过去几个月间,微软研究院的机器学习基础团队陆续发布了小型语言模型(SLM)Phi系列。

其中,第一个模型为13亿参数规模的Phi-1,官方博客称,Phi-1在SLM中的Python编码方面表现最好,在HumanEval和MBPP基准测试上尤甚。第二个模型为13亿参数规模的Phi-1.5,这个模型的重点为常识推理和语言理解能力。

现在微软发布的Phi-2能为研究人员探索机器可解释性、安全性改进或对各种任务的微调实验上提供帮助,目前,Phi-2已经从Azure AI Studio模型目录中开放给研究人员。

一、96块A100 GPU训练14天,参数规模仅27亿

一些大模型的参数规模达到数千亿的量级,使得其涌现出众多新兴能力,那么,是否可以通过改变训练策略等方式让更小的参数实现这些能力?微软的小型语言模型(SLM)系列或许是这一问题的答案。

模拟微软

Phi-2是一个基于Transformer架构的模型,具有下一个单词预测目标,在用于NLP和编码的合成数据集和Web数据集的混合上多次传递的1.4Ttokens上进行训练。

Phi-2在96个A100 GPU上训练了14天,作为一个基础模型,其没有通过人类反馈强化学习(RLHF)进行对齐,也没有进行指令微调。

尽管如此,与经过调整的现有开源模型Llama 2-7B相比,研究人员观察到在避免生成有攻击性、有害和内容有偏差方面Phi-2的表现也不差。

研究人员根据ToxiGen的13个人口统计数据计算的安全评分,他们选择6541个句子的子集,并根据困惑度和句子“毒性”进行0到1之间的评分。分数高就说明,模型产生有攻击性、有害句子的可能性较小。



▲Llama 2与Phi-2在生成有攻击性、有害和内容有偏差方面性能比较(图源:微软官方博客)

微软使用Phi-2打破了传统语言模型缩放定律,其中有两个关键环节:

第一是训练数据的质量对模型的性能至关重要。微软的模型训练数据包含专门创建的合成数据集,用于教授模型常识推理,还包括科学、心理等领域的常识。

研究人员还挑选了一些网络数据进一步扩充训练语料库,并基于内容的价值和质量进行了数据过滤。

此外,从13亿参数规模的Phi-1.5开始,微软的研究人员实现了规模化的知识转移,将Phi-1.5的知识嵌入到27亿参数的Phi-2中。这种方法不仅加速了训练收敛,而且提高了Phi-2的基准分数。



▲Phi-2和Phi-1.5比较(图源:微软官方博客)

二、基准测试击败Llama 2、Mistral、GeminiNano 2

微软总结了Phi-2在学术基准上与主流语言模型的性能表现对比。

其基准测试涵盖Big Bench Hard(BBH数据集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常识推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的语言理解数据集,GSM8k数学数据集和HumanEval、MBPP的编码数据集等。

27亿参数规模的Phi-2,在BBH、常识推理、语言理解、数学、编码各项基准测评上都超过了70亿、130亿参数规模的Mistral和Llama 2。

相比于参数规模差距在25倍的700亿参数Llama 2,Phi-2在编码、数学等多步推理任务上表现更好。



微软模拟2020多少钱

▲Llama 2、Mistral、Phi-2性能比较(图源:微软官方博客)

此外,微软还比较了Phi-2与谷歌最近发布的Gemini Nano 2,谷歌发布的模型参数规模为32.5亿,Phi-2的性能表现部分优于Gemini Nano 2。



微软模型2020

▲Phi-2、Gemini Nano 2性能比较(图源:微软官方博客)

考虑到一些公共基准测试的数据可能会泄漏到训练数据中,微软对第一个模型Phi-1进行了广泛的净化研究以排除这种可能性。

基于判断语言模型的最佳方法是在具体用例上对其进行测试的考量,研究人员使用了多个微软内部专有数据集和任务评估了Phi-2,并再次将其与Mistral和Llama 2进行比较,其结果为,平均而言Phi 2优于Mistral-7B,后者优于70亿、130亿、730亿参数规模的Llama-2模型。

除了基准测试外,研究人员还测试了社区内的一些常用提示,他们观察到的表现也与基准测试的结果预期一致。

其中,研究人员测试了用于评估谷歌Gemini Ultra模型在解决物理问题方面能力的问题。



与Gemini的测试类似,研究人员进一步向Phi-2询问学生的错误答案,来确认它是否能识别出错误所在。

不过,从输出结果来看,这并不完全是与Gemini报告中描述的Gemini Ultra输出的同类比较,Gemini测评中学生的答案上传了手写文本的图像,Phi-2的测试采用的是原始文本。



结语:大模型时代,小模型仍在崛起

Phi-2的参数规模仅有27亿,但相比于参数规模更大的70亿、130亿模型,其性能表现仍不逊色。微软专注于小模型市场的布局,也印证了大模型时代小模型的价值。

微软与OpenAI的紧密合作,使得GPT模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的Phi系列,能进一步抢占开源模型长尾市场。不过从目前来看,Phi系列仅被允许用于研究目的。

从市场来看,越来越多的玩家开始探索在手机等移动设备上部署大模型,微软此举或许也会加速模型能力在端侧的应用。


返回网站首页

本文评论
Google Photos 更新加入生成式人工智能改进「回忆」功能
8月16日消息:谷歌相册(Google Photos)今天发布了一次重大的更新,推出了重新设计的导航栏和改进的「回忆」功能。iphone 15 type c接口图片来自 Google小米civi主摄型号在谷歌发...
日期:08-16
仙气飘飘!支付宝蚂蚁森林全新树木装扮公布:汤圆树(支付宝蚂蚁森林圣诞树装扮)
  2月8日消息 支付宝蚂蚁森林今日正式公布了针对元宵节推出的新树木装扮:汤圆树。   据官方介绍,用户获得汤圆树装扮需要给好友浇水三次即可获得,完成浇水后还可以在森林...
日期:02-19
京东“百亿补贴”商品现已上架「京东百亿补贴什么意思」
IT之家 3 月 1 日消息,据网友反馈,京东部分商品现已有“百亿补贴”的标签,但京东 App 内暂未出现“百亿补贴”的入口。2020世界500强华为排第几如上图所示,戴尔 G15 游戏本现已...
日期:03-02
《战国》票房夺冠 4399游戏盒动作单机更精彩(战国的票房)
由孙红雷、景甜、金喜善、吴镇宇等大批明星联袂主演的战争片《战国》上映之后,观影热潮再次袭来。影片中超过1000个特效镜头打造的冷兵器大战场面、血腥“重口味”的酷刑镜...
日期:07-27
美国国会酝酿知识产权紧箍咒寻找施压中国新渠道_美国知识产权壁垒
  下周中美战略与经济对话(S&ED)开幕前夕,美国国会正自下而上酝酿扩大针对中国知识产权保护和自主创新政策议题的“政策工具箱”,借力“知识产权紧箍咒”寻找施压中国新渠道...
日期:07-27
哈弗品牌发布新能源战略,第三代H6混动版开启预售14.98~17.68万_h6混动上市
钛媒体消息2022年8月22日,哈弗品牌正式发布了新能源战略以及品牌标识,并同步首发第三代哈弗H6超级混动DHT车型,包括HEV以及PHEV两个版本。其中,第三代哈弗H6 HEV版官方指导价14....
日期:09-25
天娱数科首部AI创作的科幻短篇《时间少女日志》上线_时间少女破解
5月8日 消息:近日,清华AI实验员、元圆科技旗下虚拟数字人安思鹤在接入AI及人工智能语言模型后,发布了首部由AIGC主笔创作的连载科幻短篇《时间少女日志》。机械师f117x小米6成...
日期:05-08
微软新Windows Phone将叫芒果 放弃编号“7”
  北京时间4月25日,据国外媒体报道,据微软最近更新的Windows Phone官方网站的信息显示,Windows Phone的下一个版本将叫作“芒果”。这个网站是开发人员与微软合作的重要资源...
日期:07-27
第二位女宇航员「更耐得住寂寞 澳大利亚首位女宇航员诞生:一大气物理博士」
11月26日消息,据媒体报道,澳大利亚航天局局长宣布称,经过数月的精心遴选,梅根娜克里斯蒂安(Meganne Christian)从22500 多名符合条件的申请者中脱颖而出,现成为澳大利亚有史以来第...
日期:11-30
防疫上云,亿联网络助力河南第四次疫情防控会议举行_云省疫情防控视频工作会 2月13日晚
  近期,全国疫情呈现多点发生、局部暴发的态势,疫情防控形势严峻,外防输入的任务艰巨繁重。亿联网络积极发挥云视频通信企业社会责任,助力河南省委召开新冠肺炎疫情防控工作...
日期:09-22
京东物流:“全额保”24小时理赔打款及时率达到99%_京东物流保价赔付规则
10月28日 消息:近日,京东物流官方表示,“全额保”上线一月以来,24小时理赔打款及时率达到99%,最快一单打款时长仅为13分钟。9月29日,京东快递全新保价服务“全额保”正式上线,消费...
日期:10-28
iPhone14 Plus刚开售就破发:降价449元也没人买!_iphone13出售12会降价吗
10月7日,也就是昨天,iPhone14系列手机的最后一款机型iPhone 14 Plus正式全网开售,今天已经有首批预订者拿到了新机。然而如同预料的一样,这个一开始就被全网唱衰的iPhone 14 Plu...
日期:10-27
红米note12pro最新消息「Redmi Note 12 Turbo 1TB再开售:2599继续抢购」
Redmi Note 12 Turbo开启了首销,起售价1999元。在开售之后仅5分钟,就刷新了2023年行业首销全天销量记录,首批有不少用户没抢到,根据官方最新消息,Redmi Note 12 Turbo 1TB版将于...
日期:04-05
百应科技荣誉入选国家级专精特新“小巨人”企业_百应科技怎么样
近期,工业和信息化部发布了第五批国家 级专精特新“小巨人”企业公示名单,百应科技荣誉入选。这是继 2023 年 5 月百应科技荣誉入选浙江省“专精特新”中小企业名单后,政府和行...
日期:11-17
10代酷睿什么时候降价「Intel 13代酷睿国行价格公布!有的涨400、有的降100」
Intel今天正式发布了Raptor Lake 13代酷睿处理器、Z790主板芯片组,国行价格也已公开。13代酷睿首发还是六款K、KF系列无锁频版本,具体价格如下——苹果14pro相机4800万像素- i5...
日期:10-19
软通动力:iSSMeta数字仿真推演平台获软博会银奖,以工业仿真为核心,重塑虚拟制造_网易科技
(原标题:软通动力:iSSMeta数字仿真推演平台获软博会银奖,以工业仿真为核心,重塑虚拟制造) 佳明与applewatch 8月31日至9月2日,以“...
日期:09-05
信通院公布上半年国内数据库产品和服务商第一梯队,华为、阿里、腾讯产品上榜
通信世界网消息(CWW)近日,信息通信研究院举办2023上半年“可信数据库”评测专家评审会,共计28家企业的33款产品通过本次评审,其中包括华为、阿里、腾讯等企业的产品。国内最好的...
日期:06-25
网易云音乐大变局 迎来新任CEO 创始高管悉数离场_网易云音乐大股东
  |四大金刚  2013年夏秋之交的北京,五道口。  网易北京总部还没搬去西北旺的后厂村,仍在“宇宙中心”的清华科技园办公,5年后将担任网易云音乐内容运营副总裁的丁博和同...
日期:09-30
美团快递业务_跨界抢生意?美团关联公司经营范围新增快递服务
  11 月 23 日消息,近日,美团关联公司经营范围新增快递服务,此前取消了外卖递送服务。   企查查 App 显示,11 月 22 日,辽宁美鲜达快运有限公司发生工商变更,公司经营范围新...
日期:07-17
武汉多地标惊现游戏NPC打卡 网友:还是游戏圈会整活_npc武汉巡演照片
最近,大量游戏NPC出现在武汉街头,花式团建,边走边吃热干面,网红墙上各种姿势拍照,长江大桥上潇洒舞剑,频频上演各种搞笑场景。游戏NPC们除了整活,还顺便打卡了武汉各大地标景点。网...
日期:04-24