您的位置:首页 > 互联网

姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致性

发布时间:2024-09-24 14:25:03  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 | 公众号 QbitAI,作者:西风,授权转载发布。

姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。

提出思维图(DiagramofThought),让大模型思考更像人类。

团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻辑一致性和合理性。

相比CoT将推理过程表示为线性序列,DoT更能捕捉人类推理的复杂性。

相比引入分支结构ToT和GoT,DoT不需要依赖外部控制机制或多个模型协作,训练部署更简单。

秘诀就在于,DoT将LLM中的迭代推理建模为在单一模型内构建有向无环图(DAG)。

DAG由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑关系或依赖关系,边都有方向,不存在任何循环路径。

这种无环的特性确保推理过程不受循环依赖的影响,能更真实反映合理的逻辑推导。

9.11和9.8哪个大、strawberry中有几个“r”等问题在DoT的帮助下全都迎刃而解了。

要知道,大模型最新“顶流”OpenAI o1目前被训练得原生具备生成CoT的能力,现在更强的DoT来了,是不是也可以通过强化学习内化到模型里,如此一来……

这项研究提出后得到了不小的关注。

网友纷纷表示这是一种正确的路径。

码住,码住,码住

具体来看看DoT长啥样。

大模型复杂推理新框架

如前所述,DoT将逻辑推理过程建模为在单个LLM内构建有向无环图(DAG)。

其框架内部管理三个关键角色:

  • 提议者:生成命题或推理步骤,添加新节点。

  • 批评者:评估命题,识别错误、不一致或逻辑谬误,并添加批评节点。

  • 总结者:将经过验证的命题综合成一个连贯的思维链,有效地执行DAG的拓扑排序(topological sort)以产出最终的推理输出。

新氧科技财报

这三个角色通过使用特殊token,如<proposer>、<critic>、<summarizer>,在模型的输出中被明确定义。LLM在生成过程中在这些角色之间无缝切换,利用其自回归能力根据上下文预测下一个token。

推理过程始于提议者引入一个命题,向DAG添加一个节点。

然后,由评论者评估验证或提供批评。如果提供了批评,将添加一个新节点,并在该命题和批评之间建立一个边。

万元经典手表

基于批评,提议者生成一个精炼改进过的命题,表示为DAG中的一个新节点。

这一过程重复进行,命题不断被精炼直到得到验证。

一旦建立了足够有效的命题,总结者就会综合这些推理,对DAG进行拓扑排序以产生一个连贯的思维链。

通过让模型接触正确和错误的推理,DoT允许LLM从错误中学习,随着时间的推移不断精炼其推理,这也更像人类解决问题的方式。

这种方法不仅捕捉了推理的非线性和迭代特性,还通过自然语言批评提供了比二元信号更丰富的反馈。

DoT的训练涉及使用格式化为DoT结构的训练样例,包括角色特定token和DAG表示。在推理过程中,模型基于上下文线索和角色特定token生成命题、批评和总结。

这种方法简化了部署,消除了对多LLM协作或外部控制机制的需求,同时与标准LLM训练范式保持一致,便于集成到现有工作流程中。

作者还为DoT框架提供了严格的数学基础,利用Topos Theory对推理过程进行了形式化描述。

在这个框架中,命题被建模为拓扑中终端对象的子对象,逻辑关系和推理步骤表示为态射,批评和改进过程分别对应到子对象分类器的态射和命题间的态射。

通过引入PreNet范畴,他们还成功捕捉了推理过程的动态和并发特性。

这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专门用于推理的AI模型提供了概念框架。

苹果自研5g基带曝光

清华叉院姚期智、袁洋领衔

这篇论文由清华交叉信息研究院姚期智、袁洋领衔,论文第一作者为张伊凡。

张伊凡

张伊凡2021年本科毕业于于北京大学元培学院,现为清华大学交叉信息学院博士研究生,师从袁洋助理教授。

他的主要研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。

袁洋

袁洋是清华大学交叉信息学院助理教授,博士生导师。

2012年毕业于北京大学计算机系;2018年获美国康奈尔大学计算机博士学位;2018-2019年前往麻省理工学院大数据科学学院做博士后。

iphone14天内摔坏了

他的主要研究方向是智能医疗、AI可解释性、AI大系统,在非凸优化理论、神经网络优化理论、机制设计等领域有颇多研究成果。

姚期智

姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。

姚期智教授2004年从普林斯顿辞去终身教职回到清华任教;2005年为清华本科生创立了计算机科学实验班“姚班”;2011年创建“清华量子信息中心”与“交叉信息研究院”;2019年再为清华本科生创立了人工智能学堂班,简称“智班”。

如今,他领导的清华大学交叉信息研究院早已声名远播,姚班、智班都隶属交叉信息院。

姚期智教授研究方向有算法、密码学、量子计算等,是这方面的国际先驱和权威。

One More Thing

一年前的差不多同一时间姚期智院士领衔提出了累积推理(Cumulative Reasoning,CR)的方法。

DoT是对CR的进一步深化。

当时CR协调了一个涉及不同专业化大语言模型的迭代过程,由不同模型承担了提议者、验证者和报告者角色。

而DoT直接在单一模型内构建有向无环图,不依赖于外部控制机制或多个模型,训练和部署更简单。

且在DoT中,模型生成的批评反馈是自然语言形式的,而不是像CR那样只给出二值信号。这使得模型可以接收到关于错误的详细解释,有助于更有效地改进命题。

这次DoT还有了强有力的数学基础,阐明了DoT推理过程与范畴逻辑的关系,从理论上确保了推理的一致性和可靠性。

论文链接:https://arxiv.org/abs/2409.10038

参考链接:

[1]https://x.com/omarsar0/status/1835882277563179512

[2]https://hub.baai.ac.cn/users/16897

[3]https://hub.baai.ac.cn/users/19790

—完—


返回网站首页

本文评论
ios15换机「iPhone 16正式面世!分析师称将带来超级iPhone换机周期」
快科技9月10日消息,苹果iPhone 16系列在今日凌晨正式发布,除了最为明显的尺寸变动、芯片速度升级外,其他硬件方面并无太多新功能。回顾往昔,iPhone的辉煌销售记录定格于2021财年...
日期:09-10
我国互联网用户规模全球排名「2023中国互联网用户规模最多App一览:国人最离不开5大软件你认同吗」
快科技1月13日消息,你知道中国互联网用户规模最多的App吗,前十名你能猜出个大概吗?有统计机构给出了2023中国互联网Top 50赛道用户规模App排名,其中第一当之无愧的是微信平均MAU...
日期:01-13
2018西瓜play嘉年华_西瓜PLAY视频嘉年华包下邮轮引来粉丝告白潮:爱TA就送TA上邮轮!
  今年的2019西瓜PLAY视频嘉年华一改前两届在“地上”举办的风格,承包了一艘邮轮,把这段与创作人们的共创之旅直接搬到了“海上”!   大海作为万物起源,自然也是内容的源...
日期:11-17
AI 软件 打破英伟达统治格局 消息称高通、谷歌、英特尔等联合开发
IT之家 3 月 26 日消息,英伟达凭借 AI 芯片的领先,如今已成为行业巨无霸,包括微软等巨头也需要与其合作,全球超过 400 万开发者依靠英伟达的 CUDA 软件平台来构建 AI 和其他应用...
日期:03-26
DIY玩家必玩!《装机模拟器2》Epic商城开启预购:首发90元_开箱模拟器2
《装机模拟器》是各位云装机玩家最好用的工具之一,还能满足大家用上高端硬件的心理。现在,全新升级的《装机模拟器2》来了,带来了职业模式、定制功能等等,可以使用40个以上的硬...
日期:10-09
vivo发布自研蓝心大模型及蓝河操作系统、OriginOS 4_蓝心ip
11月1日,2023 vivo开发者大会上,vivo正式发布了自研蓝心大模型BlueLM、OriginOS 4、自研蓝河操作系统BlueOS。一加11谍照vivo副总裁、OS产品副总裁周围发布了“1+2+N”的智能...
日期:11-01
春节开车必杀技:卡仕达流媒体A6 Pro
  春节即将来临,意味着一年一度全球最大规模的“人类迁徙”就要上演,人口流动带动车辆流动,掺杂紧张、拥挤和期盼。   如何让春节之旅不变成囧途,在大多数人潜伏的这个焦虑...
日期:07-10
报告:中国电动车平均价格全球最低 性能也更好_2020中国电动车
快科技11月10日消息,据报道,市场调查机构JATO Dynamics近日以全球国家为对象的调查中,公布了中国和美国、欧洲等国的电动汽车价格报告。台积电一季度营收71.0亿美元中兴折叠屏...
日期:11-11
大巴车乘客不系安全带罚款吗「大巴司机被曝开车回微信刷朋友圈:中途只系半个小时安全带」
5月10日消息,大巴车对驾驶员有着极高的要求,因为这种车往往载人数量多,不出事还好,一旦出事,很容易酿成重大事故。据后浪视频报道,5月9日,浙江杭州,有乘客爆料,一名机场大巴司机在行...
日期:05-10
腾讯音乐第二季度营收69.1亿元 净利润同比增长3.5%_腾讯音乐年营收
关于推进机器人产业发展的指导意见车听宝升级版app光刻机清华大学摩托罗拉razr折叠屏手机什么时候上市 查看最新行情   讯 北京时间8月16日凌晨消息,腾...
日期:08-17
蔚来李斌:换电服务到了可以对外输出的阶段,已有车企探讨合作
在经过5年的积淀后,蔚来的换电站或将开始外供。4月1日,在中国电动汽车百人会论坛(2023)上,蔚来汽车CEO李斌在接受澎湃新闻等媒体采访时表示,希望其他企业与蔚来共享、共建充换电基...
日期:04-02
航空航天信息化建设合作峰会_吉林航信携手航天云网 推进工业互联网建设
  近年来,伴随着互联网、大数据、云计算等信息技术的迅速发展,各项技术的融合与应用已成为当今各行各业彰显实力的体现,是企业得以在行业内迅速发展所依赖的高技术法宝。云...
日期:11-03
摩托罗拉 一亿像素「千元机用上1亿像素主摄!摩托罗拉Moto G72发布」
10月3日消息,摩托罗拉推出了新机Moto G72,采用居中打孔屏,后置三摄,其中主摄为1.08亿像素镜头,售价为18999印度卢比(约合人民币1660元)。Moto G72正面采用了一块6.6 英寸pOLED显示...
日期:10-08
GPTs官网入口 OpenAI可定制ChatGPT使用地址方法教程与免费试用入口_gpptool
探索GPTs能为你带来哪些改变为什么选择GPTs?GPTs不仅仅是一款产品——它是一项革命性的技术,致力于为用户提供定制化的ChatGPT体验。致力于提供无需编码即可创建定制化GPT的功...
日期:07-01
北京移动全球通新年音乐会正在火热报名中!快来参与!_北京移动全球通银卡
北京移动全球通新年音乐会正在火热报名中!快来参与! 通信产业网|2023-12-07 15:30:08作者:佚名来源:通信产业网【通信产业网讯】时光的车轮从不会停止转动,充满回忆的2023即将离...
日期:12-14
应用宝《2019年移动APP洞察报告》:颜值经济、儿童教育、圈层社交成新关键词
  1月7日,腾讯应用宝携手半月谈、易观千帆发布《2019年移动APP洞察报告》。报告显示,在移动互联网存量时代,二三线城市用户依然是主力人群,占比超过6成;四五线城市用户开...
日期:07-11
钉钉“独立”,给阿里云铺好了盈利路「钉钉 阿里云 一体化」
出品|虎嗅科技组作者|齐健编辑| 廖影头图|视觉中国据阿里内部人士透露,钉钉总裁叶军在近日的一次钉钉内部会议上确定,钉钉将从阿里云独立出来,组织架构重新回归到阿里集团。在...
日期:08-15
员工一年因迟到被扣20万工资合理吗 法院判了_员工全年累计迟到
快科技5月3日消息,员工在公司上班迟到,公司进行一定的罚款警示无可厚非,但一年因迟到,公司罚款20万元,多少有些离谱。据国内媒体报道,江某于2019年9月17日入职某医疗公司从事内勤...
日期:05-04
容易误触 苹果iPhone-15 Pro系列被曝存在设计缺陷_ios 15缺点
来源:中关村在线Apple watch 2望远镜拍摄火星在iPhone 15 Pro和iPhone 15 Pro Max上,苹果对静音拨片进行了重新设计,使其成为一种可自定义操作的按钮。这个新的设计让用户能够...
日期:10-13
超 75 款游戏在 2022 年消失,腾讯停运项目最多「腾讯游戏停运的游戏」
IT之家 12 月 5 日消息,据时代财经根据公开报道统计,2022 年内至少已有 75 款游戏项目宣布解散或停运。第三代半导体将迎来大爆发IT之家了解到,这些游戏大多由腾讯、网易、B站...
日期:12-12