您的位置:首页 > 互联网

OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

发布时间:2024-07-22 11:19:35  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:桃子 乔杨,授权转载发布。

【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。

小模型的战场,打起来了!

真正的自律,就是战胜你自己

苹果 facebook 隐私

继GPT-4o mini、Mistral NeMo发布之后,苹果也入局了。

DCLM小模型包含两种参数规模——70亿和14亿,发布即开源。最大70亿参数超越了Mistral-7B ,性能接近Llama3、Gemma。

根据苹果ML小组研究科学家Vaishaal Shankar(也是DCLM研发人员)的说法,这是迄今为止性能最好的真正开源的模型,不仅有权重和训练代码,而且是基于开放数据集DCLM-Baseline。

相比模型性能,DCLM做出的真正开源的典范更加引人关注。

对比大部分科技巨头只搞闭源模型,或犹抱琵琶半遮面,只开源代码或权重的做法,大方的苹果获得了网友的好评。

此外,Shankar还预告说,之后会继续上线模型中间检查点和优化器状态。

难道,这就是LLM开源社区的春天了吗?

DCLM系列全开源

目前,HuggingFace上已经发布了全部模型权重,其中的模型卡已经基本涵盖了关键信息。

https://huggingface.co/apple/DCLM-7B

DCLM-7B同样采用了decoder-only的架构,使用PyTorch和OpenLM框架进行预训练。

总共4T token的DCLM-baseline数据集来自于总量240T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。

vivo首款折叠屏手机vivoxfold

上下文长度为2048,小于Mistral7B和Gemma29B的8k长度。

性能方面,作者直接使用评估套件LLM Foundry,测试了模型在53个基准任务上的分数。

与其他模型进行比较时,除了MMLU分数,作者还自定义了两个指标——核心准确率(core)和扩展准确率(extended)。

前者是包括HellaSwag和ARC-E在内的22个任务中心准确率的均值,后者则涵盖全部53个任务。

与虽然使用的数据不是最多,但与其他同等大小的开放数据模型(权重与数据集都开源)相比,DCLM在全部3个指标上的性能都达到了最佳。

三列基准分数从左到右分别是:核心、MMLU、扩展

相比之前的SOTA MAP-Neo模型,DCLM-7B在5-shot的MMLU任务准确率达到63.7%,提升了6.6个百分点,同时训练所需的计算量减少了40%。

然而,如果和权重开源、数据集闭源的模型相比,效果就不尽如人意了。

DCLM在各个指标上都与Phi-3存在不小差距,与Mistral-7B-v0.3或Gemma8B的分数大致相当。

研究人员发现,如果使用同一数据集中额外的100B数据进行训练,并将上下文长度扩展到8k时,模型在核心和扩展基准上的分数还会进一步提升,但MMLU结果没有变化。

这个结果,就全面超过了Mistral7B-v0.3的分数。

此外,HuggingFace上还发布了7B模型的指令微调版本,在数学推理任务GSM8K上的性能实现大规模提升,分数由原来的2.1直接飙到52.5。

https://huggingface.co/apple/DCLM-7B-8k

除了7B版本,1.4B版本也同步上线。神奇的是,训练数据量相比7B版本不降反增,多了0.1T。

https://huggingface.co/TRI-ML/DCLM-1B

相比HuggingFace最近发布的SmolLM,DCLM-1B的性能显著更优,尤其是5-shot MMLU分数,比SmolLM提升了11.9%。

不仅如此,DCLM-1B在MMLU上41.9的得分也同样高于Qwen-1.5B的37.87和Phi-1.5B的35.90。

7B模型落后的事情,反而让1.4B模型反超了,果然小模型才是苹果的看家本领。

值得注意的是,7B模型仅能在Appl240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开e的示例代码许可(ASCL)下使用,但1.4B版本在Apache2.0下发布,允许商业使用、分发和修改。

既然说到这次发布的DCLM系列模型,就不得不提它们的重要基础——DataComp基准。

论文地址:https://arxiv.org/pdf/2406.11794

DataComp这篇论文首发于6月17日,共同一作Jeffrey Li、Alex Fang和共同最后作者Vaishaal Shankar,也同样都是苹果DCLM的研发人员。

文章不仅对数据集的构建过程进行了详细阐述,也提到了关于DCLM模型的部分内容。

Vaishaal Shankar表示,将很快发布这篇论文的更新版,提供更多有关模型预训练的技术细节。

相比于对同一数据集修改模型,DataComp的思路反其道而行之——测评所用的模型是固定的,任务是在总共240T的数据池中过滤、处理出最好的数据。

可以说,这种做法与科技巨头们的研发思路非常一致——对于LLM的性能而言,预训练数据正在成为比模型架构和权重更重要的因素。

毕竟,Llama、Gemma、Phi等一系列开源模型都是只放权重、不公布数据。

既要Scaling Law,又要SLM

对于AI科技巨头来说,有时模型不是越大越好。

其实一直以来,AI社区中,并不缺少小模型,比如微软Phi系列模型多次迭代,以及6月末谷歌刚刚更新的Gemma27B。

ipad4性能相当于苹果手机

这周,OpenAI突然发布GPT-4o mini,Mistral AI联手英伟达发布Mistral NeMo,HuggingFace的SmoLLM等小模型的发布,为小模型的领域再次添了一把火。

正如OpenAI研究员所言,虽然我们比任何人都更喜欢训练大模型,但OpenAI也知道如何训练小模型。

小模型,优势在于成本低、速度快、更专业,通常只使用少量数据训练,为特定任务而设计。

大模型变小,再扩大规模,可能是未来发展的趋势之一。

前两天,在GPT-4o mini发布时,Andrej Karpathy也发表长推表达了类似的观点。

他认为,模型尺寸的竞争将会反向加剧,不是越来越大,反而是比谁更小更轻巧。

当前的LLM之所以逐渐变成巨兽,是因为训练过程仍然非常浪费,我们基本上是在要求模型记住整个互联网的内容(而且实际上,LLM的记忆能力还相当不错,质量上比人类好很多)。

但对于小模型来说,训练目标已经改变。关键问题是,AI系统如何从更少的数据中学到更多。

我们需要模型先变得更大,再变得更小,因为我们需要巨兽将数据重构、塑造为理想的合成形式,逐渐得到完美的训练集,再喂给小模型。

马斯克也表示同意这个观点。Karpathy所描述的这个模型改进阶梯,正是现实中特斯拉曾走过的路。

23年4月,Sam Altman曾宣布了AI大模型时代终结。最近采访中,他还确认了数据质量是进一步AI训练的关键成功因素。

微软研究人员在开发Phi模型时,就提出了这样的假设。Hugging Face的AI研究人员最近也证实了这一假设,并发布了一个高质量的训练数据集。

就以GPT-4为例,开发和使用超一万亿参数的成本超过了1亿美元。

而小模型,比如专在法律数据集上完成训练,可能使用不到100亿参数,成本不到1000万美元,使用更少算力响应每个查询,因此成本较低。

纳德拉曾表示,Phi⼩型模型系列规模仅为OpenAI背后免费模型1/100,而且在许多任务上的表现几乎同样出色。

除此以外,谷歌以及AI初创公司Mistral、Anthropic、Cohere今年也发布了规模较小的模型。

6月,苹果曾公布了自己的AI发展路线图,计划使用小型模型,这样就可以完全在手机上运行软件,使其更快速和更安全。

对于许多任务来说,比如总苹果为什么要用小模型?结文档或生成图像,大模型可能有点大材小用。

Transformer开山之作背后作者Illia Polosukhin表示,计算2+2不应该需要进⾏千万亿次运算。

不过,科技巨头们也并没有放弃大模型。苹果在今年WWDC大会上,曾宣布了在Siri助手中植入ChatGPT,以执行撰写电子邮件等复杂任务。

毕竟通往终极AGI/ASI,参数规模的扩大和智能的增长成正比。


返回网站首页

本文评论
全球首款ChatGPT音箱来了:搭载双AI 可创作诗歌_chqp音箱是什么品牌
快科技8月11日消息,知名丹麦音响品牌Vifa将推出全球首款搭载ChatGPT的音箱ChatMini,主打双AI加持。palm 安卓据了解,ChatMini主打的高情商陪伴畅聊依托于ChatGPT与百度文心一言...
日期:08-11
恒温恒湿实验室方案设计,优质实验环境的关键保障_恒温恒湿实验室工程技术规程
(原标题:恒温恒湿实验室方案设计,优质实验环境的关键保障) 在科学研究和工业生产领域,温度和湿度的控制对于实验结果和产品质量...
日期:01-20
规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:鱼羊 明敏,授权转载发布。本周国内最受关注的AI盛事,今日启幕。活动规格之高,没有哪个关心AI技术发展的人能不为之吸引——Sor...
日期:06-14
雷军官宣小米汽车发布日 小米汽车AI人工智能应用有哪些?_小米智能汽车有限公司
最近关于雷军官宣小米汽车发布日的报道,小米集团宣布将推出小米SU7 汽车,标志着小米正式踏入汽车行业。这一举措显示了小米迈向“人车家全生态”构想的努力,加速了其高端化战略...
日期:03-12
报告称人工智能与核武器相比可能导致人类灭绝_人工智能和人类的战争
**划重点:**三星w2021心系天下折叠屏手机开箱1. 苹果xr适合...
日期:03-12
公司搬迁60公里员工拒上班并要补偿引热议:法院支持「公司搬迁员工补偿标准举例说明?」
公司突然搬迁至60公里以外,员工拒绝上班,并且要求公司进行补偿,那么,这样的要求能否得到满足呢?4月15日记者获悉,最近,常州市中级人民法院就审理了这样一起案件,法院会如何判呢?2016...
日期:04-17
vivo Y100官宣定档10月27日!Y系列销量已累计超3亿_vivo y系列价格
  【手机中国新闻】10月23日,vivo Y100 5G正式官宣,将于10月27日14:30越级发布。vivo Y100官宣  vivo产品副总裁称,关于Y系列,多年来我们更多专注在打磨产品,鲜少把它放到聚...
日期:10-23
游戏出海这一年,又迷茫又残酷
声明:本文来自于微信公众号深燃(shenrancaijing),作者 | 李秋涵,编辑 | 魏佳,授权转载发布。“不出海,就出局”。这是游戏行业广为流传的一句话。对于各大游戏厂商来说,出海是救命...
日期:01-11
东方甄选宣布将在8月29日进行淘宝直播首秀_东方甄选宣布将在8月29日进行淘宝直播首秀活动
8月24日 消息:东方甄选将于8月29日在淘宝平台首次直播。新东方创始人俞敏洪、东方甄选CEO东方小孙亲自带队,东方甄选众多主播将在淘宝开启全天直播。他们将展示超过300款甄选...
日期:08-25
杭州辟谣禁止直播带货 官方回应:没有这回事
近日,有关杭州市禁止直播带货的谣言在网上传播,引发了关注。杭州市商务局负责人已明确回应,这些传言都是不实信息,纯属谣言。实际情况是,杭州直播带货业务正常运营,没有收到任何关...
日期:10-26
双11,冬季样板间招募全城开启 | 成都知希五恒诚邀,共筑科技健康之家
随着时代的变迁,大家对居家空间的理解逐渐从“稳定实用的居住空间”转变为“个性健康生活的表达方式”。尤其对于寻求高品质人居环境的人们而言,“家”绝不是“柴米油盐”的常...
日期:11-10
XREAL首次亮相TGS东京电玩展,AR巨幕开启游戏新体验
2023年9月23日,全球领先的AR眼镜品牌XREAL正式亮相TGS东京电玩展,面向日本市场推出了XREAL Air2系列AR眼镜产品。期间,XREAL 创始人兼CEO徐驰与参会媒体和粉丝进行了深入交流,并...
日期:09-25
快手成立独立toB业务部门 将发布StreamLake品牌
讯 8月3日上午消息,快手将发布StreamLake品牌,推出面向各行业的音视频+AI产品与解决方案,这意味着快手正式进军toB赛道。此外,快手已于近日成立独立业务部门“溪流湖”,负责研发t...
日期:08-04
小米双11手机销量销额双料冠军!雷军:感谢米粉支持_小米双十一销量全国第一
一年一度的双十一电商大促已经落下帷幕,小米也在第一时间公布了双11终极战报。据悉,小米14在四大平台的国产手机销量和销额中荣膺冠军。该产品在京东的4K-6K价位段、天猫、抖...
日期:11-13
飞天操作系统研发者_飞天操作系统可兼容多种芯片
  (原标题:阿里云:飞天操作系统正全面兼容X86、ARM、RISC-V)   在今天举办的2021阿里云峰会上,阿里云智能总裁张建锋宣布,飞天操作系统正在全面兼容X86、ARM、RISC-V等多种...
日期:10-03
90后女生攒20万裸辞回村生活:够自己用10年 生活很安逸
年轻人的生活方式越来越多样了,不少人厌倦了城市里的生活,回到农村,日前河南新乡一位90后女生攒了20万之后就裸辞回到农村生活。当事人岳女士是一名94年出生的年轻人,工作6年攒...
日期:07-21
总编视点 | “元年”的重担:一切向好,努力向前
通信世界网消息(CWW)岁聿云暮,一元复始,星霜荏苒,居诸不息。2024年就这样匆匆走进了我们的生活。回首2023年,尽管许多人用一个“卷”字总结这一年的不容易,但可以肯定地说,2023年是...
日期:01-09
联想828联萌大促再升级:七夕心动5折起,直播间拯救者爆款直降800
8 月 22 日,联想推出联萌节 “心动 5 折”七夕活动,多款热门智能产品在七夕开启半价购。此前 8 月 18 日,联想正式升级微信小程序乐呗商城为联想官方旗舰店,同时开启年度盛典 82...
日期:08-23
学而思大模型MathGPT完成备案 旗下学习机将上线相关AI功能_学而思一半模型视频
11月7日 消息:据每日经济新闻报道,学而思大模型 MathGPT 完成备案并通过审核,成为首批通过备案的教育大模型之一。学而思透露,随着 MathGPT 的备案通过,在学习机上将推出基于该...
日期:11-08