您的位置:首页 > 互联网

DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%_deepwide模型

发布时间:2023-10-16 05:50:11  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

当前,大型语言模型(LLM)在推理任务上表现出令人惊艳的能力,特别是在给出一些样例和中间步骤时。然而,prompt 方法往往依赖于 LLM 中的隐性知识,当隐性知识存在错误或者与任务不一致时,LLM 就会给出错误的回答。

现在,来自谷歌、Mila 研究所等研究机构的研究者联合探索了一种新方法 —— 让 LLM 学习推理规则,并提出一种名为假设到理论(Hypotheses-to-Theories,HtT)的新框架。这种新方法不仅改进了多步推理,还具有可解释、可迁移等优势。

论文地址:https://arxiv.org/abs/2310.07064

对数值推理和关系推理问题的实验表明,HtT 改进了现有的 prompt 方法,准确率提升了11-27%。学到的规则也可以迁移到不同的模型或同一问题的不同形式。

方法简介

总的来说,HtT 框架包含两个阶段 —— 归纳阶段和演绎阶段,类似于传统机器学习中的训练和测试。

在归纳阶段,LLM 首先被要求生成并验证一组训练样例的规则。该研究使用 CoT 来声明规则并推导答案,判断规则的出现频率和准确性,收集经常出现并导致正确答案的规则来形成规则库。

有了良好的规则库,下一步该研究如何应用这些规则来解决问题。为此,在演绎阶段,该研究在 prompt 中添加规则库,并要求 LLM 从规则库中检索规则来进行演绎,将隐式推理转换为显式推理。

然而,该研究发现,即使是非常强大的 LLM(例如 GPT-4)也很难在每一步都检索到正确的规则。为此,该研究开发了 XML tagging trick,来增强 LLM 的上下文检索能力。

实验结果

为了评估 HtT,该研究针对两个多步骤推理问题进行了基准测试。实验结果表明,HtT 改进了少样本 prompt 方法。作者还进行了广泛的消融研究,以提供对 HtT 更全面的了解。

他们在数值推理和关系推理问题上评估新方法。在数值推理中,他们观察到 GPT-4的准确率提高了21.0%。在关系推理中,GPT-4的准确性提高了13.7%,GPT-3.5则获益更多,性能提高了一倍。性能增益主要来自于规则幻觉的减少。

具体来说,下表1显示了在算术的 base-16、base-11和 base-9数据集上的结果。在所有 base 系统中,0-shot CoT 在两个 LLM 中的性能都最差。

表2呈现了在 CLUTRR 上比较不同方法的结果。可以观察到,在 GPT3.5和 GPT4中,0-shot CoT 的性能最差。对于 few-shot 提示方法,CoT 和 LtM 的性能相似。在平均准确率方面,HtT 始终比两种模型的提示方法高出11.1-27.2%。值得注意的是,GPT3.5在检索 CLUTRR 规则方面并不差,而且比 GPT4从 HtT 中获益更多,这可能是因为 CLUTRR 中的规则比算术中的规则少。

徐直军当值华为轮值董事长了吗

值得一提的是,使用 GPT4的规则,GPT3.5上的 CoT 性能提高了27.2%,是 CoT 性能的两倍多,接近 GPT4上的 CoT 性能。因此,作者认为 HtT 可以作为从强 LLM 到弱 LLM 的一种新的知识蒸馏形式。

deepar模型

deepwide模型

deepfm模型

表3显示,HtT 显著提高了 GPT-4(文本版)的性能。对于 GPT3.5来说,这种改进并不显著,因为在处理文本输入时,它经常产生除规则幻觉以外的错误。


返回网站首页

本文评论
中国铁路12306 App下载量超17亿次!最快每秒卖出1500张车票_12306官网app下载2018
2013年12月,为进一步方便旅客购票,中国铁路在原有互联网售票系统的基础上,推出了手机客户端应用程序铁路12306,上线以来,铁路12306 App从1.0版演进到5.5版,历经30多个大版本、500...
日期:10-17
《使命召唤:现代战争》PC配置要求公布:需要175GB硬盘空间_使命召唤现代战争游戏配置
  10月10日消息 据外媒Charlieintel消息,暴雪战网现已公布《使命召唤:现代战争》PC配置要求,包括最低配置要求与推荐配置要求。信息显示,存储《使命召唤:现代战争》需要175GB...
日期:11-21
巨头的小程序争夺战加剧,王兴、程维、黄峥激战社区团购,10月小程序商业闭环加速形成
10月阿拉丁指数TOP100榜单 排名变化明显,生活服务、网络购物和政务公益类小程序整体占比接近50%,各互联网公司的小程序生态布局突显,行业细分赛道竞争进一步白热化,目前,小程序互...
日期:08-07
三星预热最新Exynos芯片(三星exynos2100发布会)
  10 月 4 日消息 今日下午 5 点,三星 Exynos 官方微博预热光线追踪技术,光线追踪是桌面级 GPU 中支持的高级图形显示技术。   据悉,三星将和 AMD 合作推出新款 Exynos 旗...
日期:10-03
红米note2013122参数「Redmi Note 13标准版正式发布 1099元起售」
近日,Redmi Note 13标准版正式发布,售价公布如下:6GB 128GB售价为1099元,8GB 128GB售价为1199元,8GB 256GB售价为1399元,12GB 256GB售价为1599元。该机采用6.67英寸OLED直屏,支持19...
日期:09-22
让你不买!NV下狠手 停产RTX 2060、GTX 1660等性价比神卡:就为卖RTX 30系列
既然大家都不愿意买RTX 3060、3070等30系列显卡,那么NV也是使出了狠手段。有消息人士在博板堂爆料称,为了促销RTX 30系列显卡,NVIDIA决定停产RTX 2060 Super、RTX 2060、GTX 16...
日期:12-02
荣耀X40 GT顶配版仅2062元
主打时尚高效的荣耀X40 GT手机好价来袭,这款手机搭载骁龙888旗舰芯战力觉醒,144Hz电竞级高刷屏,4800mAh容量电池,搭配66W超级快充体验优秀,目前这款手机顶配版在京东商城仅2062元...
日期:03-09
阿里巴巴公布2022年度股东大会投票表决结果_阿里巴巴大会2020
  财联社9月30日电,阿里巴巴公布2022年度股东大会投票表决结果:选举张勇、杨致远、Wan Ling MARTELLO及吴港平各自担任公司第二组董事,上述人士均将任职三年或任职至其继任人...
日期:10-04
年销35万台无悬念!李想:L8/L7 Air版交付后月销3万保底_李想x7
如果按照李想的说法,理想汽车今年交付量将达到35万台,这将使其与其他造车新势力彻底拉开差距。腾讯视频用户数量2020三星s23最新参数爆料2月13日,在博主@孙少军09 公布的:理想L7...
日期:02-15
打造AI健康管理闭环 平安科技上线情绪管理机器人“平荷正念”
  如今,国内疫情防控形势继续积极向好,随着新冠肺炎的治愈者越来越多,许多人身体上的健康容易管控,心理上的焦虑却难以缓解。总体来说,疫情改变了人们日常的生活习惯,许...
日期:02-13
华为mate50有希望吗「华为Mate50系综合实力并不突出, 为啥能够如此大卖!」
华为mate50首发销量喜人,综合实力并不突出,为何能如此大卖?天涯社区帖子如何删除华为Mate50系列手机大卖很正常,很多人都憋坏了!别小看了华为手机的影响力,毕竟曾经也是登上了全球...
日期:09-27
微博之夜闪耀降临 全领域盘点彰显微博多元价值「微博之夜年度突破演员」
  3月25日,2022微博之夜在上海梅赛德斯奔驰文化中心盛大举行。百余位当红明星、社会热点人物、重大事件当事人共同见证微博年度盘点的各项荣誉诞生。集结全领域名人的豪华...
日期:03-27
破局领航,做风中强者 | 36氪2019 WISE风向大会
  过去20年互联网的飞速发展重塑了各行各业的商业逻辑,互联网加持下的产业生态也在不断呈现出新的变化。一方面,信息、技术、商业模式等新资产形态不断成为企业可持续健康...
日期:11-06
乘联会:特斯拉中国10月交付71704辆电动汽车 环比下降14%「特斯拉2016年报」
11月4日消息,据国外媒体报道,中国乘联会(CPCA)周四发布的统计数据显示,特斯拉在10月份交付了71704辆中国制造的电动汽车,环比下降14%,同比增长32%。今年9月,该公司交付了83135辆中国...
日期:11-10
图说5G发牌四周年「5g发牌照时间」
通信世界网消息(CWW)四年时间,5G发展硕果累累。梳理过往,通信世界全媒体特整理了一些5G发展重要照片。一张张照片的背后,是中国通信人5G建设辛勤的付出。精彩瞬间,成就呈现。(仅撷...
日期:06-07
Facebook支付系统更名为Meta Pay_facebook改用户名
  5月14日消息(刘文轩)为推动“元宇宙”为中心的商业模式,由Facebook更名的meta公司本周宣布支付系统品牌也由“Facebook Pay”更名为“meta Pay”,同时还透露了单一电子...
日期:07-18
李彦宏两年春节送15亿现金 新年搏一搏单车变摩托
  又是一年春来到,本周五就是万众期盼的年三十儿啦,最近几年除了放鞭炮、猜灯谜等传统活动外,互联网大厂们不约而同的开启“红包大战”吸引了越来越多的人参与,已经让抢红包...
日期:01-19
世界光模块生产厂家排名「7家中国光模块厂商荣登2022年全球光模块TOP10榜单」
通信世界网消息(CWW)近日,LightCounting公布了2022年全球光模块TOP10榜单。2019印度智能手机出货量iPhone6屏幕供应商iphone查找功能怎么接收邀请自助餐厅为什么一吃就饱其中7...
日期:06-01
小米12/Pro、Redmi K50 Pro开始推送安卓13正式版MIUI开发版_红米k20pro啥时候推送miui12.5
IT之家 8 月 16 日消息,据小米社区官方宣布,Xiaomi 12 Pro、Xiaomi 12、Redmi K50 Pro 已通过基于 Android 13 MIUI 开发版申请的用户,今天开始推送 Android 13 正式版的 MIUI...
日期:09-17
腾讯搜狗输入法推出多语言解决方案,助力中国制造类企业出海「搜狗输入法 多语言」
5 月 16 日,腾讯搜狗输入法发布多语言输入解决方案,支持英语、西班牙语、阿拉伯语和法语等 100 多个语种,可适配各类终端屏幕,并提供跟随系统语种智能切换的能力,以专业的多语言...
日期:05-16