您的位置:首页 > 互联网

比GPT-4还强,20亿参数模型做算术题,准确率几乎100%_参数模拟v2.0下载

发布时间:2023-09-19 20:04:56  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍、小舟,授权转载发布。

当前,大型语言模型 (LLM) 在处理 NLP 领域的各种下游任务方面已经表现出卓越的能力。特别是,GPT-4、ChatGPT 等开创性模型已经接受了大量文本数据的训练,使它们具备强大的文本理解和生成能力,能够生成连贯且上下文相关的响应,在各种 NLP 任务中具有高度通用性。

微信新版本ios 8.0.23更新了什么

然而,LLM 在数学推理方面的性能却不尽如人意。LLM 很难准确地执行复杂的算术运算,尤其是涉及超过8位数字乘法的运算,还有涉及小数、分数的运算。

基于此,来自清华大学、TAL AI Lab 和智谱 AI 的研究者联合提出了一个能够完美执行复杂算术运算的新模型 ——MathGLM。

  • 论文地址:https://arxiv.org/pdf/2309.03241v2.pdf

  • 项目地址:https://github.com/THUDM/MathGLM#arithmetic-tasks

该研究表明:在足够的训练数据下,20亿参数的语言模型能够准确地进行多位算术运算,准确率几乎达到了100%,且不会出现数据泄露(data leakage)。这个结果大幅超越了 GPT-4(其多位乘法运算准确率仅为4.3%)。

方法介绍

本文提出了一个名为 MathGLM 的模型来探讨 LLM 在数学推理方面的效率。

MathGLM 模型需要完成的算术任务大致可以分为两类:基本算术运算和复杂混合运算。其中基本算术运算包含基本的数学任务,这些任务围绕两个数字的简单计算。而复杂混合运算涉及不同算术运算和数字格式(例如整数、小数、分数等)的组合。表1为 MathGLM 任务分类。

阿里不倒

为了增强 MathGLM 的算术能力,本文采用了基于 Transformer 的仅解码器架构,并使用自回归目标(autoregressive objective)在生成的算术数据集上从头开始训练它。

算术任务的学习

算术训练数据集是精心设计的,包括加法、减法、乘法、除法和求幂等多种运算。此外,它还包含多种数字格式,例如整数、小数、百分比、分数和负数。数据集规模大小不一,范围从100万到5000万条记录不等。

在每个数据集中,单个算术表达式由2到10个运算步骤组成,涵盖一系列数学运算,例如加法 (+)、减法 (-)、乘法 (×)、除法 (/) 和求幂 (^)。图3为从算术数据集中提取的一些训练示例:

表2概述了 MathGLM 模型的不同规模,包括4种不同类型的模型,每种模型都有不同的参数大小。最大的模型参数量为2B,容量最强;其余参数量分别为500M 、100M 以及最小的10M 参数模型。

对数学应用问题的学习

除了算术任务外,本文还训练(微调)了一系列基于 Transformer 的语言模型,称为通用语言模型 (GLM,General Language Model)及其聊天版本来解决数学应用问题。训练过程使用了公开的 Chinese Ape210K 数据集,该数据集包含21万道中文小学数学题,每个题的答案都是直接计算得出的。

为了提高 MathGLM 在数学应用题上的性能,本文采用分步策略来重建 Ape210K 数据集,并将其转换为逐步计算每个数学问题答案的版本。图4展示了原始 Ape210K 数据集和本文重建版本之间的对比。

本文采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有335M 参数的 GLM-large、GLM-6B、GLM2-6B 和 GLM-10B。此外,本文还使用 ChatGLM-6B 和 ChatGLM2-6B 主干网络训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。

实验

本文设计了两种不同类型的实验,包括算术任务和数学应用题。

对于算术任务,本文预训练了一个基于 Transformer 的 MathGLM 模型,该模型具有500M 参数,并将其与领先的大型语言模型 (LLM)(例如 GPT-4和 ChatGPT)的性能进行了比较。结果如表3所示, MathGLM 优于所有其他模型,表明 MathGLM 在处理算术任务方面具有卓越的性能。

即使只有1000万个参数的 MathGLM-10M,结果也令人惊讶。MathGLM-10M 在一系列综合算术任务中的性能优于 GPT-4和 ChatGPT。

参数模拟v4.0

抖音平台推送作品的规则

此外,当比较不同参数规模的 MathGLM 时,本文观察到 MathGLM 的算术性能与其参数数量的增加直接相关。这一发现表明,随着模型尺寸的增加,它们的性能表现出相应的增强。

综上所述,研究者对复杂算术任务的评估结果表明 MathGLM 具有卓越的性能。通过分解算术任务,这些模型的性能显著超过了 GPT-4和 ChatGPT。

此外,本文还对 GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM 和 GLM 进行了比较。本文从前面讨论的大数据集中随机抽取了一个包含100个测试用例的紧凑算术数据集。结果如表4所示。

通过以上分析结果可以看出,MathGLM 在20亿参数下达到了93.03% 的准确率,超越了所有其他 LLM。

参数模拟v2.0

对于数学应用问题,本文在 Ape210K 数据集上进行了实验。表8报告了包括 MathGLM 变体、 GPT-4、ChatGPT 等在内的结果。

结果表明,当与 GLM-10B 配合使用时,MathGLM 在答案准确性方面达到了与最先进的 GPT-4模型相当的性能水平。

此外,将 MathGLM 的性能与 GLM-Large、GLM-6B 和 GLM-10B 进行比较时,出现了一个明显的趋势:MathGLM 在算术准确性和答案准确性方面都表现出显著增强。

英特尔ceo未来都将继续数字化

为了评估模型在不同年级数学问题上的解决能力,该研究在 K6数据集上测试评估了几种模型的性能,包括:GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B,结果如下图8所示。


返回网站首页

本文评论
体验北京联通2000M宽带,让家庭网络更快更智慧「北京联通宽带100m价格」
通信世界网消息(CWW)随着我国千兆光网的快速发展,各大运营商都纷纷推出了2000M光宽带服务,并在全国范围大面积推广,中国由此从千兆时代进入到超千兆时代。北京联通于今年上半年正...
日期:09-07
oppo最新专利「OPPO新专利获授权,电子设备可自发电」
12月19日 消息:企查查APP显示,近日,OPPO广东移动通信有限公司“用于电子设备的发电装置与电子设备”专利获授权。微盟智慧营销事业群华为mate50预定企查查专利摘要显示,发电装...
日期:12-19
苹果因不送iPhone充电器被巴西罚款1.4亿 苹果表示不服_苹果不送充电器违法吗
凤凰网科技讯 北京时间10月14日消息,巴西一家法院周四对苹果公司处以1亿雷亚尔(约合1.36亿元人民币)的罚款,并裁定苹果在巴西销售的新iPhone手机必须配备电池充电器。这场诉讼...
日期:10-14
对公司失去信任「对公司信心不足 Meta流失三分之一AI研究人员」
6月19日 消息:据报道,Meta的首席执行官马克·扎克伯格过去曾经大量投资于人工智能领域。但是随着裁员以及其中大量研究人员的离职,这个科技巨头在人工智能领域已经开始落后于...
日期:06-19
xgp没反应「XGP故障、键鼠无响应:Win11更新又出大量问题」
快科技6月4日消息,五月下旬,微软为Win11推送了KB5026446更新,该更新包含了Win11 22H2 Moment 3的配置更新。但根据用户反馈,KB5026446存在着相当大量的问题。小米note3miui10刷...
日期:06-05
腾讯加速器公司_腾讯发布国内首个产业加速器,招募AI与SaaS等方向项目
  5月22日,在昆明举行的2019腾讯全球数字生态大会云启智慧产业生态论坛上,腾讯发布国内首个智慧产业加速器,以期培养产业互联网赛道的“明日之星”。腾讯云副总裁穆亦飞出席...
日期:11-03
华为harmonyos正式版「华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术」
7月26日 消息:华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性。HarmonyOS...
日期:07-26
飞猪平台旅游消费「飞猪:今年国庆周边游订单量较春节增超80% 云旅游成热门选项」
10月8日 消息:近日,飞猪发布国庆旅游消费观察报告。数据显示,今年国庆周边游订单量较春节增超80%,其中,云旅游成为本地旅游消费的热门选项之一。旅游方式上,私密安全且时间自由的...
日期:10-09
小灵通退市政府合法性问题_小灵通年底将清频退网  退市方案还未出台
最近几天,不断有读者向重庆晚报反映,称小灵通“不灵通”,原因是跟以前相比,信号质量差了不少。他们对此颇有看法,因为每月的话费一分钱不少的仍然在缴,但跟以前相比享受的服务却...
日期:07-28
消息称苹果计划在更多iPhone应用程序中投放广告(苹果应用商店广告投放)
据报道,苹果公司可能会将广告投放扩大到iPhone上的更多第一方应用程序中,以增加收入。该报道称,该公司目前的广告业务年收入约为40亿美元,但希望将该细分市场增长到“百亿级别”...
日期:08-17
Meta 计划最快三月份向青少年用户开放改造后的 Horizon 元宇宙应用
2月8日消息:据WSJ报道,根据一份发给Facebook母公司Meta Platforms Inc.相关工作团队的内部通知,该公司将对刚起步的Horizon Worlds元宇宙应用进行改造,希望能在努力改进这项应...
日期:02-08
世纪佳缘盈利模式受质疑 面临SNS及微博冲击(世纪佳缘如何盈利)
  正如一些业内人士预言,中国互联网公司海外上市的狂潮再次掀起。   离人人网向美国证券交易委员会(SEC)提交IPO申请不到一周,国内在线婚恋网站世纪佳缘也正式启动上市申请...
日期:07-27
领峰环球交易大赛已火爆PK一周!快来报名冲击榜单赢京东卡!_领峰环球平台怎么样
  来一场酣畅淋漓的赛事,共赴火热的夏日征程!领峰环球交易大赛第十一季燃情开打,场上对决可谓火花四溅,精彩纷呈,每日更新的三大榜单战报看点十足,通过每个比赛日分值最 高、奖...
日期:06-09
李开复论战ChatGPT 谈后ChatGPT时代职场生存攻略
2月13日 消息:今日,创新工场董事长兼首席执行官李开复发文论战ChatGPT,李开复表示,AI存在明显不足的三大短板,即便到了2042年,AI可能仍然无法完全掌握这些能力,包括了:iphone 13磁...
日期:02-15
开放创新互动 搜搜问问四年成最大知识问答平台(维普数据知识服务平台)
  近年来,随着国内知识问答平台用户访问次数的迅猛增长,国内各大知识问答平台纷纷发力,以抢占行业发展的良好先机。其中,搜搜问问更是以其在产品、运营、技术、服务等多个层...
日期:07-22
广电192资费标准「中国广电192号段商用开启:5G套餐23元」
中国广电27日完成在西藏、青海两地启动5G网络服务,至此,除港澳台之外全国31个省市区都开通了广电的5G网络服务。目前中国广电的192号段也开始正式商用。爱回收门店以旧换新小...
日期:10-02
太空宇航局猎鹰9号「搭乘猎鹰9号火箭 韩国首个月球探测器成功入轨:位列世界第七」
近日消息,据韩联社报道,韩国航空宇宙研究院(KARI)和科技信息通信部28日宣布,韩国首个月球轨道探测器赏月”号(Danuri)于27日成功进入预定绕月飞行轨道,将从明年1月开始执行为期一年...
日期:12-30
海峡信息圆满完成第44届世界遗产大会网络安全保障工作
  第44届世界遗产大会于7月16日-31日在福建省福州市成功举办,这是中国在文化和自然遗产保护领域承办的最高规格的国际会议,作为世界遗产领域的年度盛会,第44届世界遗产大...
日期:07-17
「2020 AI 最佳成长榜」揭晓:擎朗智能斩获“AI+机器人最佳产品成长奖”
  近日,雷锋网发布了「2020 AI 最佳成长榜」,经过专家评审团长达一个月的集中评审,最终评选出60家在产品能力、技术能力、商用价值、数字化改革以及新基建背景下最具成长潜...
日期:07-15
跑步与多巴胺恋爱的感觉「跑步的多巴胺仅次于谈恋爱 长期跑步可提高身心健康」
跑步是一种低成本高效益的运动方式,深受广大群众的喜爱。它不仅能够锻炼身体和塑造体型,更重要的是,跑步还能够促进多巴胺的分泌,让人体验到快乐的感觉。有人说跑步的多巴胺效应...
日期:06-03