您的位置:首页 > 互联网

7B开源数学模型干翻千亿GPT-4,中国团队出品_开源数学建模软件

发布时间:2024-02-07 21:19:52  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西,授权转载发布。

7B开源模型,数学能力超过了千亿规模的GPT-4!

它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。

无需借助任何外部工具,它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中,它第一个在该数据集上达到一半的准确率,甚至超过了早期和API版本的GPT-4。

这一表现让整个开源社区为之震撼,Stability AI的创始人Emad Mostaque也表示研发团队属实让人印象深刻,而且潜力被低估了。

它,就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力,研究团队使用了中(MGSM-zh、CMATH)英(GSM8K、MATH)双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链(CoT)提示的情况下,DeepSeekMath的表现均超越了其他开源模型,其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比,DeepSeekMath的成绩也有大幅提升。

如果考虑闭源模型,DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4,MATH上的表现也与之接近。

但要注意的是,GPT-4按泄露规格是一个千亿参数的庞然大物,而DeepSeekMath参数量只有7B。

如果允许使用工具(Python)进行辅助,DeepSeekMath在竞赛难度(MATH)数据集上的表现还能再提高7个百分点。

iPhone 6上市

那么,DeepSeekMath优异表现的背后,都应用了哪些技术呢?

基于代码模型打造

为了获得比从通用模型更好的数学能力,研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现,无论是在两阶段训练还是一阶段训练设置下,代码训练相比于通用数据训练都可以提升模型的数学能力。

在Coder的基础上,研究团队继续训练了5000亿token,数据分布如下图:

训练数据方面,DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据,得到了DeepSeekMath Corpus,总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的,经过四次迭代,研究团队收集了3500多万个数学网页,Token数量达到了1200亿。

为了确保训练数据中不包含测试集的内容(因为GSM8K、MATH中的内容在互联网上大量存在),研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量,研究团队分别用MathPile等多个数据集训练了1500亿token,结果Corpus在多个数学基准上效果明显领先。

华为mate30怎么升级harmonyos2.0

对齐阶段,研究团队首先构建了一个776K样本的中英文数学指导监督微调(SFT)数据集,其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习(RL)阶段,研究团队使用了一种名为“基于组的相对策略优化”(Group Relative Policy Optimization ,GRPO)的高效算法。

GRPO是近端策略优化(PPO)的一种变体,过程中传统的价值函数被替换为一个基于组的相对奖励估计,可以减少训练过程中的计算和内存需求。

同时,GRPO通过迭代过程进行训练,奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进。

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队,是国内开源模型领域的一名“头部选手”。

此前,该团队就曾推出过首个国产开源MoE模型DeepSeek MoE,它的7B版本以40%的计算量击败了相同规模的密集模型Llama2。

作为通用模型,DeepSeek MoE在代码和数学任务上的表现就已十分亮眼,而且资源消耗非常低。

代码方面,该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时,它也击败了GPT-3.5-Turbo,成为最接近GPT-4-Turbo的开源代码模型。

如前文所说,此次推出的DeepSeekMath,也正是在Coder的基础之上打造的。

而在X上,已经有人开始在期待Coder和Math的MoE版本了。

论文地址:

https://arxiv.org/abs/2402.03300

苏宁冰洗节

开源模型训练平台

参考链接:

[1]https://twitter.com/deepseek_ai/status/1754701472363958581

搞笑脑筋急转弯爆笑整人

[2]https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA


返回网站首页

本文评论
arch显卡驱动安装「英特尔发布Arc显卡31.0.101.4952 beta驱动:增加多款游戏的Game On支持」
英特尔发布了Arc显卡31.0.101.4952驱动程序,这是一个beta版本的驱动程序。英特尔在该版本驱动程序中,对多款游戏提供了GameOn的支持和性能改进,包括有《塔罗斯的法则2(The Talos...
日期:11-02
299元!华为商城上架一款微泵液冷手机壳:适用于Mate 60 Pro
华为商城近日发布消息,一款名为华为微泵液冷手机壳的产品已正式上架销售,适用于Mate 60 Pro和Mate 60 Pro 两款手机,且售价为299元。该产品在设计上采用了星弧形可视背面透窗设...
日期:09-23
高考期间酒店会涨价吗「河南一酒店要求高考生1点前退房:否则不退100元押金」
6月9日消息,在河南周口,爱心送考队下午1点接到学生电话说酒店要求退房,否则不退押金。iphone的新款机型将会采用type-c接口送考队和前台协商时表示:外面天气太热,考试时间也没到,...
日期:06-09
Kindle真的要拿来盖泡面了!官方店铺正式停运_kindle 下架
Kindle,一度被视为电子书的标杆之作,但至少在中国,属于它的并不怎么辉煌的时代,结束了。2022年,亚马逊发布《Kindle中国电子书店运营调整》,宣布一年后在中国停止Kindle电子书店的...
日期:06-30
荣耀智能表哪一款最好「续航最长的eSIM智能手表,荣耀手表4正式官宣,7月12日发布」
7 月 4 日,荣耀官方官宣荣耀手表 4 将于 7 月 12 日和荣耀Magic V2、荣耀平板MagicPad、荣耀智慧屏 5 同期发布。据官方消息,荣耀手表 4 此次将会支持eSIM独立通话,并且在续航...
日期:07-05
莉莉丝lip「零推广零买量,莉莉丝近年最低调的新品,DAU悄悄超过了100万」
声明:本文来自于微信公众号 游戏葡萄(ID:youxiputao),作者:安德鲁,授权转载发布。莉莉丝的第一款射击游戏成了。今日,职场社交平台脉脉上,有标记为莉莉丝游戏员工的用户发表动态,称...
日期:06-06
HEY!精致生活,从HARMAY話梅科技好物开始(harmay话梅官网购物)
  生发帽、增肌健身仪、美妆冰箱……一大波与众不同,而又令人忍不住想要一探究竟的黑科技产品,集体在HARMAY話梅北京西单更新场店登场。伴随此次話梅西单更新场店开业,【話...
日期:09-22
苹果 iPhone 14 Pro 相机在第三方 App 中出现画面模糊和抖动问题「苹果照相机抖动模糊」
IT之家 9 月 19 日消息,综合外媒 9To5Mac 和 Apple Insider 报道,有部分苹果 iPhone 14 Pro 用户称,第三方 App 使用相机时出现了画面模糊和抖动问题,同时伴随着物理的嗡嗡声。...
日期:09-22
Python 2.7 正式终止支持:Python 3时代来了!(Python 2.7)
  Python之父两年前就已宣布 Python 2.7将于2020年1月1日终止支持,现在这一天已到来,亦即意味着开发者将不会再接收到任何来自Python 2.7的错误修复或安全更新。   为应...
日期:04-01
pro16换固态「iPhone 16 Pro将采用固态按键:还有屏下Face ID!」
快科技5月8日消息,今年的iPhone 15 Pro痛失一大重磅新功能。此前有多方供应链消息都表明,iPhone 15 Pro上会采用一种固态按键设计,类似于iPhone 7/8时代的Home键,按键本身是按不...
日期:05-08
圆桌对话:汽车智能化如何保证可靠性和安全性?
更多精彩内容,请关注 《2022网易未来大会》专题报道 12月19日-23日,2022网易未来大会盛大举行。2022网易未来大会全新升级为“未来周”,囊括三天的思想之夜和两天的峰会,包括...
日期:12-22
魅族20白色版上架 首发价跌到2999元「魅族20白色版上架 首发价跌到2999元是真的吗」
近日,备受期待的魅族20手机的白色款正式开始预约,起售价为3199元。该款手机的外观设计非常漂亮,官方还发布了魅族20白色版的渲染图。这次魅族采用白色背板设计,打造出整体风格非...
日期:05-24
零工经济崛起 金柚网赋能企业“降本增效”(零工经济平台)
  2020年疫情将“灵活用工”推到到人们的视线之中,实际上,在此之前,全球已经有数以百计的工人参与到灵活用工中。灵活用工成为为企业降本增效以及为个人增加收入的有效方法...
日期:07-16
超新星爆炸毁灭地球「去年超新星"摧毁"地球部分臭氧层,持续了几分钟」
11月15日消息,一项新研究表明,2022年的一次超新星爆炸事件短时间内破坏了地球大气中的部分臭氧,保护人们免受有害太阳辐射的天然屏障受到了短暂影响。相关论文于当地时间周二发...
日期:11-15
网易严选旗下两款产品获中国红星奖 用设计赋能中国制造(网易严选的产品是谁生产的)
  被称为“中国设计界的奥斯卡”的中国设计红星奖火热出炉,网易严选旗下“智造皓月智能护目灯”和“春风啵啵汪吸吮式按摩器”两款商品获得业内及评委组一致好评,强势摘得2...
日期:06-15
鸡头肉是什么「鸡头、淋巴肉、鱼“黑衣”等 这八种肉最好别吃:有害」
快科技11月7日消息,据报道,一些人喜欢吃非寻常肉”,但是此类常见肉,可能并不适合食用,会对人体造成伤害,有医生提醒,以下这8种肉最好别吃。一、猪脖子里的肉疙瘩(多为淋巴肉),食用时应...
日期:11-07
华为Mate X5和Mate60 Pro 上架官网 几乎秒光
9月8日上午10点08分,华为在其官网上再次上架了两款手机,分别是华为Mate X5折叠屏手机和华为Mate60 Pro+。需要注意的是,这两款手机的上架是华为“先锋计划”的一部分,并非正式开...
日期:09-09
高尔夫球“名场面”或消失!剧版《最后生还者2》将修改原作剧情
作为PS4生命末期最后的几部第一方大作之一,《最后生还者2》却在媒体与玩家中出现了极为严重的争议;而导致争议的主要原因之一,就是在开篇不久出现的一段高尔夫球名场面”。在新...
日期:03-14
微软cntk「微软将ChatGPT整合到更多工具中 无需编码即可开发应用」
据报道,微软公司将ChatGPT的技术整合到其Power Platform平台上,从而允许用户在几乎不需要编码的情况下,开发自己的应用程序。大疆哈苏相机和苹果12pro微软表示,其Power Platform...
日期:03-07
天猫双十一促销几天「天猫双11波今晚8点开买」
10 月 31 日消息,天猫双 11 第一波将于今晚 8 点开买。多个第三方机构对双 11 商品进行的价格测评结果显示:今年的天猫双 11 商品到手价普遍在5.5-6. 8 折之间。记者从天猫获...
日期:11-07