您的位置:首页 > 互联网

阿里开源新模型:超GPT-4o,数学能力全球第一!_阿里开源软件

发布时间:2024-08-09 09:59:30  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权转载发布。

阿里巴巴开源了最新数学模型Qwen2-Math,一共有基础和指令微调两种版本,包括1.5B、7B和72B三种参数。

ipad pro是m1芯片吗

根据阿里在主流数学基准测试显示,Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名闭源模型,就连Meta最新开源的超强模型Llama-3.1-405B也照样拿下。

也就是说,Qwen2-Math-72B是目前全球最强的数学推理大模型。不知能否挑战一下前不久谷歌刚获得国际数学奥林匹克竞赛银牌,仅差1分获得金牌的双混合模型AlphaProof和AlphaGeometry2(这两个模型还处于研究阶段)。

开源地址:https://huggingface.co/Qwen

Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file

一加8t首销

基础模型

Qwen2-Math的基础模型使用Qwen2-1.5B、7B和72B进行初始化,然后在精心设计的高质量数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen-2模型合成的数学预训练数据。

阿里在在三个英语数学基准 GSM8K、Math 和MMLU-STEM 上评估了Qwen2-Math 基模型。同时评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA,所有评估均使用 Few-shot CoT 方式。

结果显示,Qwen2-Math基础模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。

指令微调模型

阿里datav开源

在开发指令微调模型方面, Qwen2-Math-72B 训练的模型采用了密集的奖励信号与二元信号的结合,二元信号在此起到指示模型是否正确回答问题的作用,类似于分类任务中的标签,有助于模型在训练过程中进行自我校正。

结合信号后,模型通过拒绝采样方法构建了SFT数据集。拒绝采样是一种蒙特卡罗方法,通过在更大范围内按照均匀分布随机采样,然后接受或拒绝采样点来估计复杂问题的概率分布。

这种方法在处理复杂概率分布时特别有用,因为它不要求分布的概率分布函数可逆,从而解决了一些分布难以直接采样的问题 。

随后使用GRPO强化学习算法进行优化,这是近端策略优化的一种变体,通过迭代过程进行训练,其中奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进 。

阿里使用英语和中文的数学基准评测对Qwen2-Math-72B指令微调模型进行了综合评估。还使用了更有难度的OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024、 AMC2023以及中国2024年高考/中考数学题进行了测试。

结果显示,其数学推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名开闭源模型。阿里表示,Qwen2-Math已经能解答一些数学竞赛难题,包括多道IMO竞赛题。

车企数字化转型

在预训练和微调数据集上阿里都进行了去污染处理,特别是清洗了对GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基准测试数据集有重叠的正例污染样本,以保证测试效果的准确性、公平性。

林斌小米股份

目前,Qwen2-Math模型仅支持英文,但阿里表示会很快推出中英双语版本,帮助更多的用户开发生成式AI应用。


返回网站首页

本文评论
比亚迪:海豹 06 GT 将于成都车展亮相并有望预售,9 月中下旬上市
IT之家 8 月 7 日消息,据懂车帝今日报道,比亚迪海洋网营销事业部总经理张卓日前透露,海豹 06 GT 将于 8 月底的成都车展期间亮相,“如果来得及”将会同时开启预售,正式上市的规划...
日期:08-08
社交游戏商Zynga收购社交浏览器开发商Flock_社交游戏开发商Zynga的首席执行官更喜欢用什么说话
  北京时间1月8日消息,据国外媒体报道,社交游戏厂商Zynga周四宣布,它将收购社交网络浏览器开发商Flock。这是Zynga在最近几个月来进行的第8宗收购交易。   Flock首席执行...
日期:07-25
行业恶性竞争加剧 法律道德沦为花瓶-3Q大战一周年祭
  北京金诚同达律师事务所高级合伙人 汪涌   2010年,互联网行业恶性竞争事件频发,引发了社会各界的广泛关注。受害企业在依法维权的同时,行业协会、监管机构等也被迫介入...
日期:07-24
美团三季营收275亿「美团2022年第三季度财报:营收626.2亿元 同比增长28.2%」
11月25日 消息:今日,美团发布2022年三季度财报称,三季度营收626.2亿元,同比增长28.2%。净利润12.2亿元,预计亏损9.868亿元。华硕rt-ac86u发布会共享汽车新闻其中,本地商业分部收...
日期:12-03
AI生成《西游记》短片引热议:用时仅1周 若人工制作需半年_西游记小视频制作
快科技2月19日消息,博主AI疯人院”在网上发布了一部利用AI技术生成的《西游记》动画短片,其震撼的视觉效果令众多网友惊叹不已。世界首富马斯克公司该部动画短片全长约3分56秒...
日期:02-19
助TA展现潮流个性 520礼物当选三星Galaxy Z Flip4
520 这个具有特殊意义的日子即将到来,不少朋友想选择一部合适的智能手机作为礼物送给心爱的TA。如今,市面上造型和功能千篇一律的直板手机已经满足不了人们对于创新体验的需求...
日期:05-17
燃爆啦!海信激光电视冠名2021《新春相声大会》,震撼收官
  每年的春节营销,各大品牌都打得如火如荼。初七一过,打工人开始新的奋斗,品牌的春节营销也暂告一段落。   由海信激光电视独家冠名的2021年《新春相声大会》在《新闻...
日期:07-16
元象XVERSE多模态数字人上线_元象教育
11月23日 消息:元象XVERSE宣布推出多模态数字人,其多模态数字人方案具有以下特点:形象逼真、能听会道、灵活生动和情智兼备。在形象逼真方面,元象通过自研的渲染引擎和制作模...
日期:11-23
正在开发中「OpenAI正在开发SearchGPT 将成Perplexity强有力的竞争对手」
4月26日 消息:OpenAI 正在积极开发 Perplexity 的竞争对手——Sonic - SNC(SearchGPT),目前该工具已经进入评估阶段,并新增了多项实用功能。新团网团购网站域名:https://search....
日期:04-26
传荣耀MagicOS 8.0明年将关闭第三方商业广告_荣耀magic3至臻版广告
【手机中国新闻】12月23日,网上传出了一份荣耀产品部发布的通知,通知指出,荣耀MagicOS 8.0正式版将正式关闭第三方商业广告。如此看来,荣耀对MagicOS有了更进一步的规划,希望通过...
日期:12-24
淘宝网日均销售20万个 网购粽子“吃香”(网上卖粽子赚钱吗)
  ●热门网购   “即食粽”一天卖出6万个   在淘宝网搜索“端午节”,可看到相关商品32902件。记者发现,今年端午节“即食粽”成了网友最爱。这种粽子采用真空包装,开袋...
日期:07-28
360隐私保护器:让偷窥隐私的邪恶之眼现形_360主页保护
  金秋九月,长假将至,但是猝不及防的用户却被专门窃取用户隐私的病毒撞了一下腰。360隐私保护器提醒用户,节日期间应谨防网银账号、聊天记录、个人照片等个人信息被恶意盗取...
日期:07-23
最后1天备份机会!字节跳动旗下时光相册将正式停止运营_时光相册官网
快科技12月4日消息,字节跳动旗下的时光相册”App在上个月宣布停止运营,这是一款用于备份的云相册App。在宣布停运之后,有不少老用户通宵下载照片备份,但依然很多数据来不及保存,...
日期:12-04
5G×云“新引擎” 湖北移动科技赋能智慧热电_湖北省移动
通信世界网消息(CWW)推动数字技术与实体经济深度融合,赋能传统产业数字化智能化转型升级,是把握新一轮科技革命和产业变革新机遇的战略选择。今年3月,国家能源局发布的《关于加快...
日期:12-06
特斯拉开始生产Semi电动卡车 首批12月交付「特斯拉货车semi」
10月8日消息,特斯拉CEO马斯克的最新推文显示,特斯拉已经开始生产Semi电动卡车,并计划于12月1日开始向百事公司交付。百事公司周五也证实,将于12月1日开始接收特斯拉的Semi电动卡...
日期:10-17
糖小糖个人资料「10万+爆款制造机,@小糖糖女士 为何在视频号风生水起?」
声明:本文来自于微信公众号 KOL使用手册(ID:KOL-TOPKLOUT),作者:白羊,授权转载发布。如果提到视频号热门达人,@小糖糖女士 必定当属其中一个。在行业榜单中,可以看到@小糖糖女士...
日期:05-27
百度沸点浙江2019年度记忆榜单发布 猪肉价格牵动老百姓的心
  近日,百度公布了百度沸点浙江2019年度记忆榜单,该榜单基于百度热榜对浙江网民搜索及资讯浏览大数据分析,客观呈现了浙江网民在2019年关注的焦点议题。   百度作为国民获...
日期:01-05
南洋理工提出全新3D编辑算法GaussianEditor 2分钟内完成3D场景增删改_南洋理工大学3d打印
12月5日 消息:近年来,3D 编辑在游戏和虚拟现实领域崭露头角,但长时间和低可控性一直是问题。南洋理工大学联合清华和商汤提出的 GaussianEditor 算法成功解决了这些问题。该算...
日期:12-05
华为回应美或出台新规「白宫回应华为新手机发布:将继续对华搞“小院高墙”技术限制」
据白宫网站发布的记者会实录,美国总统国家安全事务助理沙利文当地时间5日在回答有关问题时表示,在获得有关华为新手机技术的具体特征和组成信息前,不会对特定芯片和问题发表评...
日期:09-07
雷军谈小米造车:真心不容易 佩服比亚迪、蔚小理和华为_雷军:为小米汽车而战
快科技12月27日消息,今日晚间,小米创办人雷军发微博表示,他在一次聚会上跟何小鹏聊到了汽车。amazfit gtr 4 pro什么时候发布雷军表示,造车3年后真心觉得不容易,比我原来想的至少...
日期:12-28