您的位置:首页 > 互联网

ToRA:融合自然语言推理与外部工具 数学推理能力增强_torah

发布时间:2023-10-07 21:10:43  来源:互联网     背景:

文章概要:

torae

- 清华大学与微软合作开发的ToRA是一款革命性的工具集成推理代理,旨在通过将自然语言推理与外部计算工具结合,解决复杂数学问题。

- ToRA模型经过训练,成功在多个数学推理数据集上取得了显著的性能提升,特别是在MATHS竞赛级数据集上,表现出高精度。

- 这一研究为数学问题求解领域带来了重大突破,通过无缝集成自然语言理解和工具使用,ToRA代理在各种数学推理任务上实现了最先进的性能。

10月7日 消息:随着大型语言模型的出现,人工智能和数学问题求解领域取得了显著进展。然而,这些模型在面对复杂的数学挑战时仍然存在问题。为了解决这个问题,清华大学与微软的研究人员推出了ToRA,这是一种被称为“工具集成推理代理”的创新方法,旨在通过将自然语言推理与外部计算工具相结合,解决复杂的数学问题。

研究人员已经开始将外部工具,如计算器、代码解释器和符号求解器,集成到数学问题求解中。虽然基于程序的方法已经成功地将推理任务转化为程序合成任务,但它们仍然面临着复杂的推理、规划和错误处理问题。将大型语言模型(LLMs)与这些工具相结合显著提高了推理和生成性能。知识蒸馏技术,如LLM生成的轨迹用于微调,也在将知识从教师模型传递给学生模型方面发挥了作用。

前谷歌副总裁

尽管LLMs在语言任务中取得了显著进展,包括数学推理,但复杂的数学问题仍然具有挑战性。目前提高LLMs数学能力的策略包括逐步的自然语言推理和程序合成。前者在语义和抽象推理方面表现出色,而后者在严格操作中表现出色,并可以利用诸如方程求解器之类的专业工具。他们的方法在数学推理数据集上优于开源模型,在竞赛级MATHS数据集上取得了高精度。他们的方法还提供了关于工具交互的优势和未解决问题的见解,指导了该领域未来研究的方向。

ToRA模型是通过在数学数据集上使用交互式工具使用轨迹进行训练的,采用模仿学习进行注释,并通过输出空间塑造来改进推理行为。GPT-4在训练集上生成了多样化的推理模式。指导性和少样本示例以交织的格式进行组合,用于提示的策划,并评估了ToRA代理的效果,它将理性与程序相结合。这一方法取得了显著的推理性能提升。所面临的挑战包括更深入地理解几何空间以及解决中级代数和预微积分问题中的复杂符号推理。

ToRA通过将自然语言推理与外部工具相结合,增强了数学推理的能力。ToRA模型在十个数学推理数据集上表现出色,平均在程序化问题求解中超过开源模型13%-19%的绝对性能改进。他们的方法分析了工具交互的优势和挑战,突显了ToRA的工具集成推理格式的有效性,该格式将理性与程序执行相互交织。

ToRA代理代表了数学问题求解领域的重大突破,通过无缝集成自然语言理解和工具使用,它在各种数学推理任务上实现了最先进的性能,超过了现有的理性和基于程序的方法。对工具交互的优势和挑战进行的全面分析为未来的研究提供了重要见解,有望开发更先进和适应性更强的推理代理。

项目网址:https://github.com/microsoft/ToRA


返回网站首页

本文评论
年终奖年年都有吗_年终奖到账,今年的年终奖能置办多少年货?
  随着春节脚步一步步临近,相信很多人心里都在默默倒数回家的日子!尤其那些在外漂泊的游子们肯定也都已经归心似箭。不过传统过年往往都是从置办年货开始,只是随着互联网的...
日期:03-07
智能投影仪助力悦己消费,大眼橙X7DPro暴露投影行业隐形冠军_大眼橙投影仪怎么样x7m
近年来家用电器市场最热门的不外乎家用智能投影仪了,它除了在技术层面符合了未来智能家居的场景之外,也完美契合了当前“超大”“好用”“悦己”“沉浸感”的消费需求。首先,家...
日期:04-13
马斯克与推特ceo「马斯克将于10月6日-7日就收购案接受推特公司庭外质询」
  路透社9月27日消息,当地时间周二,一份法院文件显示,埃隆·马斯克将于10月6日-7日接受推特(Twitter)公司律师的宣誓质询,后者正在为10月17日马斯克终止收购案的开庭审理做准备...
日期:09-28
Gartner预测八成机构两年后用平板电脑办公
  近日,全球技术研究和咨询公司Gartner针对IT机构和用户发布了未来预测。报告指出,到2013年,80%的机构将支持平板电脑在工作中的使用。   苹果iPad平板电脑,注重大量内容消...
日期:07-26
京东可以免费领手机吗_Get到一个在京东11.11免费领手机的新技能 手把手教你薅羊毛
  2019年京东11.11全球好物节又来了,相信大家一定都在摩拳擦掌,寻找各种优惠券、降价和特价活动,那么现在就要告诉大家一个好消息,想要在京东11.11中完成一连串终极薅羊毛的...
日期:11-03
b站破百万up主「千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-08
百度文心官网「百度搜索整合文心一言,新增“AI对话”」
声明:本文来自微信公众号“三言财经”(ID:sycaijing),作者:三言,授权转载发布。近期,AI大模型在科技圈可谓是“红的发紫”。国内各科技公司纷纷宣布推出自己的大模型。近日,百度搜...
日期:05-11
电脑显示器花屏_电脑显示器花屏了怎么办修复
是指电脑显示器出现了各种各样的色彩花纹和图案,而非原本应该显示的图像。这种故障通常会让人感到眼花缭乱,甚至头晕和恶心。那么,这种故障出现的原因和解决方法是什么呢?达达快...
日期:05-29
贝索斯前妻再次离婚 身价约289亿美元_贝索斯老婆身价
  讯 北京时间9月29日早间消息,据报道,亚马逊创始人杰夫・贝索斯(Jeff Bezos)与麦肯齐・斯科特(Mackenzie Scott)2019年离婚,随后斯科特与科学教师丹·朱伊特(Dan Jewett)结婚,然而...
日期:09-30
强化5G建设应用,江苏电信数智力赋能全省数字经济发展_电信数字化应用能力中心
通信世界网消息(CWW)近日,国家互联网信息办公室发布的《数字中国发展报告(2022年)》,2022年我国数字经济规模达50.2万亿元,总量稳居世界第二,同比名义增长10.3%,占国内生产总值比重...
日期:08-14
中国移动(宁夏中卫)数据中心二期项目预计年底投入运营_中卫市中国移动云数据中心
通信世界网消息(CWW)日前,据中卫日报消息,中国移动(宁夏中卫)数据中心二期项目的2-1号机房楼主体已建设完成,该项目计划7月底开始分层交付机电设备安装,预计年底前投入运营。据了解,...
日期:07-13
阿里大健康再发力  率先打通山东处方流转+医保在线支付
  近日,阿里健康、支付宝联合山东省医保局,率先在山东省省立医院试点推行一套基于医保电子凭证的“互联网医疗”模式。济南本地患者可以享受“在家复诊、手机付医保、选择...
日期:04-24
法拉第未来FF91已送回中国测试_法拉第未来ff91怎么样
2月8日 消息:法拉第未来(Faraday Future)发文称,已将FF91Futurist的最新准量产车运送到中国进行本地测试和验证。红米note10天玑700参数此前,FaradayFuture(法拉第未来,FF)宣布达成...
日期:02-09
亚马逊季度财报「亚马逊第三季度营收1271亿美元 净利润同比下降9%」
  讯 北京时间10月28日凌晨消息,亚马逊今天发布了该公司的2022财年第三季度财报。报告显示,亚马逊第三季度净销售额为1271.01亿美元,与去年同期的1108.12亿美元相比增长15%,不...
日期:11-02
谷歌 Android Auto 版本 10 已发布:AI 语音助理 Google Assistant 采用全新界面设计
7月17日消息:谷歌在 I/O 2022 上宣布对 Android Auto 进行重大重新设计。它的代号为「Coolwalk」,它改进了汽车的用户界面,以提供更大的信息娱乐显示屏,并引入了分屏模式,以及一...
日期:07-17
iphone se有指纹吗「iPhone SE4或新增侧边指纹!就是大号XR」
中关村在线消息:10月10日,据相关爆料,第四代iPhoneSE将迎来大改,新机或采用6.1英寸的显示屏,首次采用挖孔屏设计,但不能确定的是,第四代iPhoneSE是继续延续采用Touch ID解锁方案还...
日期:10-14
头疼脑热不用慌 百度App可以“免费问医生”
  新型冠状病毒感染的肺炎形势严峻,为缓解当前医疗资源压力,提供足不出户的医疗咨询服务,百度App上线了“免费问医生”服务,供大众在线上进行医疗咨询。并针对疫情较为严重的...
日期:02-17
RTX30怎么办?RTX 40系列显卡真来了 最快9月20日发:这性能翻倍「rtx30系显卡最新消息」
对于不少期待新品的用户来说,9月份手机圈的两大重磅旗舰落地后,接下来就是NV等PC厂商秀肌肉的时刻了。NVIDIA正式揭晓谜底,将在太平洋时间于9月20日早上8点(北京时间9月20日23点...
日期:09-16
国内的漏洞赏金「OpenAI重磅官宣“漏洞赏金计划”:给ChatGPT挑毛病,最高奖励14万元!」
当地时间4月11日,OpenAI在官方发文称,该公司推出了一项漏洞赏金计划(Bug Bounty Program)。OpenAI的使命是创建惠及所有人的人工智能系统。为此,我们在研究和工程方面进行了大量...
日期:04-12
微软和甲骨文讨论相互租用 AI 服务器以解决短缺问题「甲骨文微软谷歌」
5月10日消息:据一位直接了解谈判情况的人士透露,甲骨文和微软最近讨论了一项不同寻常的协议,如果任何一家公司的计算能力耗尽,则相互租用服务器。华为专利和小米专利这一项交易...
日期:05-10