您的位置:首页 > 互联网

田渊栋给OpenAI神秘Q*项目泼冷水:合成数据不是AGI救星,能力仅限简单数学题

发布时间:2023-11-28 12:39:32  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:xxxxx,授权转载发布。

Q*猜想,持续在AI社区火爆。

大家都在猜测,Q*是否就是Q-learning + A*。

AI大牛田渊栋也详细分析了一番,Q*=Q-learning+A*的假设,究竟有多大可能性。

与此同时,越来越多人给出判断:合成数据,就是LLM的未来。

不过,田渊栋对这种说法泼了冷水。

我部分不同意AGI只需通过放大合成数据就能解决的说法。

搜索之所以强大,是因为如果环境设计得当,它将创造出无限多的新模式供模型学习和适应。

然而,学习这样的新模式是否需要数十亿的数据,仍是一个未决问题,这可能表明,我们的架构/学习范式存在一些根本性缺陷。

相比之下,人类往往更容易通过啊哈时刻,来发现新的范式。

而英伟达高级科学家Jim Fan也对此表示同意:合成数据将发挥重要作用,但仅仅是通过盲目扩展,并不足以达到 AGI。

Q*=Q-learning+A,有多大可能

田渊栋表示,根据自己过去在 OpenGo(AlphaZero 的再现)上的经验,A* 可被视为只带有值(即启发式)函数Q的确定性MCTS版本。

A*很适用于这样的任务:给定行动后,状态很容易评估;但给定状态后,行动却很难预测。符合这种情况的一个典型例子,就是数学问题。

相比之下,围棋却是另一番景象:下一步候选棋相对容易预测(只需通过检查局部形状),但要评估棋盘形势,就棘手得多。

这就是为什么我们也有相当强大的围棋机器人,但它们只利用了策略网络。

对于LLM,使用 Q(s,a)可能会有额外的优势,因为评估 Q(s,a) 可能只需要预填充,而预测策略a = pi(s) ,则需要自回归采样,这就要慢得多。另外,在只使用解码器的情况下,s的KV缓存可以在多个操作中共享。

传说中的Q*,已经在解决数学问题上有了重大飞跃,这种可能性又有多大呢?

田渊栋表示,自己是这样猜测的:因为解决的入门级数学问题,所以值函数设置起来应该相对容易一些(例如,可以从自然语言形式的目标规范中预测)。

如果想要解决困难的数学问题,却不知道如何该怎么做,那么这种方法可能还不够。

LeCun转发了田渊栋的讨论,对他的观点表示赞同——他解释了A*(在图形中搜索最短路径)和MCTS(在指数增长的树中搜索)之间适用性的差异。

对于LeCun的转发,田渊栋表示,自己一直在做许多不同的事情,包括规划、理解Transformers/LLM和高效的优化技术,希望能把这些技术都结合起来。

有网友表示怀疑称,要使A*有效,就需要一个可证明的、可接受且一致的启发式函数。但我非常怀疑能有人想出这样的函数,因为确定子序列的值并不容易。

即使做出的是小学数学题,Q*也被寄予厚望

对大模型稍微有些了解的人都知道,如果拥有解决基本数学问题的能力,就意味着模型的能力取得了重大飞跃。

这是因为,大模型很难在训练的数据之外进行泛化。

AI训练初创公司Tromero的联合创始人Charles Higgins表示,现在困扰大模型的关键按难题,就是怎样对抽象概念进行逻辑推理,如果实现了这一步,就是毫无疑问的重大飞跃。

数学是关于符号推理的学问,比如,如果X比Y大,Y比Z大,那么X就比Z大。

如果Q*的确就是Q-learning+A*,这就表明,OpenAI的全新模型可以将支持ChatGPT的深度学习技术与人类编程的规则相结合。而这种方法,可以帮助解决LLM的幻觉难题。

Tromero联创Sophia Kalanovska表示,这具有非常重要的象征意义,但在实践层面上,它不太可能会终结世界。

那为什么坊间会有Q*已现AGI雏形的说法传出呢?

Kalanovska认为,从目前传出的说法看来,Q*能够结合大脑的两侧,既能从经验中了解一些事情,还能同时推理事实。

显然,这就离我们公认的智能又近了一步,因为Q*很可能让大模型有了新的想法,而这是ChatGPT做不到的。

现有模型的最大限制,就是仅能从训练数据中反刍信息,而不能推理和发展新的想法。

解决看不见的问题,就是创建AGI的关键一步。

萨里人类中心AI研究所的所长Andrew Rogoyski表示,现在已有的大模型,都可以做本科水平的数学题,但一旦遇到更高级的数学题,它们就全部折戟了。

但如果LLM真的能够解决全新的、看不见的问题,这就是一件大事,即使做出的数学题是相对简单的。

合成数据是未来LLM的关键?

所以,合成数据是王道吗?

Q*的爆火引起一众大佬的猜想,而对于传闻中巨大的计算资源,使新模型能够解决某些数学问题,大佬们猜测这重要的一步有可能是RLAIF(来自 AI 反馈的强化学习)。

RLAIF是一种由现成的 LLM 代替人类标记偏好的技术,通过自动化人工反馈,使针对LLM的对齐操作更具可扩展性。

之前在LLM训练中大放异彩的RLHF(基于人类反馈的强化学习) 可以有效地将大型语言模型与人类偏好对齐,但收集高质量的人类偏好标签是一个关键瓶颈。

于是Anthropic、Google等公司已经尝试转向RLAIF,使用AI来代替人类完成反馈训练的过程。

罗永浩离开坚果手机

这也就意味着,合成数据才是王道,并且使用树形结构为以后提供越来越多的选择,以得出正确的答案。

不久前Jim Fan就在推特上表示,合成数据将提供下一万亿个高质量的训练数据。

我敢打赌,大多数严肃的LLM小组都知道这一点。关键问题是如何保持质量并避免过早停滞不前。

Jim Fan还引用了Richard S. Sutton的文章《The Bitter Lesson》,来说明,人工智能的发展只有两种范式可以通过计算无限扩展:学习和搜索。

在撰写这篇文章的2019年是正确的,而今天也是如此,我敢打赌,直到我们解决 AGI 的那一天。

Richard S. Sutton是加拿大皇家学会和英国皇家学会的院士,他被认为是现代计算强化学习的创始人之一,对该领域做出了多项重大贡献,包括时间差异学习和策略梯度方法。

苹果发布灵动岛设计指南

在这篇文章中,Sutton主要表达了这样几个观点:

利用计算的通用方法最终是最有效的,而且效率很高。但有效的原因在于摩尔定律,更确切地说是由于每单位计算成本持续呈指数下降。

最初,研究人员努力通过利用人类知识或游戏的特殊功能来避免搜索,而一旦搜索得到大规模有效应用,所有这些努力都会显得无关紧要。

统计方法再次战胜了基于人类知识的方法,这导致了整个自然语言处理领域的重大变化,几十年来,统计和计算逐渐成为了主导。

人工智能研究人员经常试图将知识构建到系统中,这在短期内是有帮助的,但从长远来看,有可能会阻碍进一步的进展。

突破性的进展最终将通过基于搜索和学习的方法来实现。

心灵的实际内容是极其复杂的,我们应该停止尝试寻找简单的方法来表示思想,相反,我们应该只构建可以找到并捕获这种任意复杂性的元方法。

——所以,看起来Q*似乎抓住了问题的关键(搜索和学习),而合成数据将进一步使它突破以往的限制,达成自己的飞跃。

对于合成数据,马斯克也表示人类确实打不过机器。

你可以把人类写的每本书的文字都放在一个硬盘上(叹气),而合成数据将远远超过这些。

对此,Jim Fan与马斯克互动说,

如果我们能大规模模拟它们,大量的合成数据将来自具身智能体,例如Tesla Optimus。

Jim Fan认为 RLAIF 或者来自 groundtruth 反馈的 RLAIF 如果正确扩展将有很长的路要走。此外,合成数据还包括模拟器,原则上可以帮助LLM开发世界模型。

理想情况下是无限的。但令人担忧的是,如果自我提升循环不够有效,就有可能会停滞不前。

对于两人的一唱一和,LeCun表示有话要说:

LeCun认为,动物和人类在训练数据量极少的情况下,很快就变得非常聪明。

所以,使用更多的数据(合成或非合成)是一种暂时的权宜之计,只是因为我们目前的方法有局限性。

对此,支持大数据派的网友表示不服:

难道不应该是数百万年的进化适应类似于预训练,而我们一生的经验类似于持续的微调吗?

LeCun于是给出一个例子作为解释,人类用于承接几百万年进化成果的手段只有基因,而人类基因组中的数据量很小,只有800MB。

连一个小型的7B LLM 都需要14GB的存储空间,相比之下,人类基因中确实没有太多的数据。

另外,黑猩猩和人类基因组之间的差异约为1%(8MB)。这一点点差别完全不足以解释人与黑猩猩之间能力的差异。

而说到后天学习的数据量,一个2岁的孩子看到的视觉数据总量是非常小的, 他所有的学习时间约3200万秒(2x365x12x3600)。

人类有200万根光神经纤维,每根神经纤维每秒传输大约10个字节。——这样算下来总共有6E14个字节。

相比之下,LLM 训练的数据量通常为1E13个token,约为2E13个字节。——所以2岁孩子获得的数据量只相当于LLM的30倍。

不论大佬们的争论如何,大型科技公司如Google、Anthropic、Cohere 等正在通过过程监督或类似 RLAIF 的方法创建预训练大小的数据集,为此耗费了巨大的资源。

所以大家都清楚,合成数据是扩大数据集的捷径。在短期内,我们显然可以利用它创建一些有用的数据。

amd多久没发布高端显卡了

只是这是否就是通往未来的道路?只能等待时间来告诉我们答案。


返回网站首页

本文评论
微软teams软件下载「微软重新设计Teams:安装速度提升2倍,内存占用减少50%」
IT之家 3 月 28 日消息,微软宣布以公共预览版的形式,在 Win10 / Win11 系统上推出新版 Microsoft Teams 应用程序。微软协作应用程序和平台总裁 Jeff Teper 在一篇博文中表示,...
日期:03-28
国家烟草专卖局:未取得烟草专卖许可证不得生产经营电子烟_国家烟草专卖零售许可证
9月29日 消息:今日,国家烟草专卖局发布《关于加强电子烟监管有关事项的通知》称,2022年10月1日起,从事电子烟生产经营的电子烟市场主体应当取得烟草专卖许可证,严格按照《中华人...
日期:09-30
女子因拒绝调岗被强制离职并踢出群聊 HR:你可以去投诉「拒绝调岗被辞退」
3月7日消息,湖南长沙一名女子称,她因拒绝调岗被强制离职,并被公司踢出企业微信,公司回收了她的工作账号、电脑、工位等。HR称:你不配合调岗的话,只能是离职,你可以去投诉仲裁都可以...
日期:03-07
交个朋友将开启海外电商培训业务 已完成相关课程灰测
11月29日 消息:据36氪报道,由罗永浩联合创立的交个朋友公司正在布局海外电商培训业务,主要由‘交个朋友海外事业部’和基于Tik Tok生态下的‘交个朋友电商学苑’承担。报道还...
日期:12-01
微信视频号规模「微信视频号春节短视频发布量上涨近170%」
1月30日 消息:日前,微信官方发布了2023兔年春节生活报告,数据显示视频号春节短视频发布量上涨近170%。其中,用户记录最多的主题是家乡生活、节日美食、家庭团聚。春节联欢晚会...
日期:01-30
小米手机开机动画怎么设置「手机开机动画怎么设置」
随着科技的发展,手机已经成为人们日常生活中不可或缺的工具之一。对于追求个性化的用户来说,自定义手机开机动画是展现自我风格的重要方式。那么,如何设置手机开机动画呢?下面就...
日期:05-29
iPhone 15屏幕仍然被区别对待!「苹果15系统屏幕」
此前的消息称iPhone 15系列四款机型将全部用上挖孔屏也就是灵动岛,此外在屏幕素质方面也会有大的升级,外媒爆料称iPhone 15将全部用上三星M12材质屏幕,对于标准版机型来说是个...
日期:04-12
12种美女Midjourney关键词描述技巧分享!附50个midjourney 提示案例_有关美女的程序
注:本文图片均由Midjourney生成你知道如何生成照片般真实感的美女图像吗?其实通过以下这些方式,你就可以得到比较真实的人物图像:1. 使用最新的 AI 模型 Midjourney v5创建逼...
日期:05-08
iPhone 15销售萎靡!苹果CEO库克:我对中国市场很有信心_苹果公司ceo库克宣布出柜
快科技11月3日消息,对于iPhone 15系列在中国市场销售不理想的情况,库克也是在财报后给出了回应。库克表示,他对苹果在中国市场的长期前景非常乐观”,并指出,截至9月30日的上一季...
日期:11-03
小米和迪士尼「小米Civi迪士尼联名新款手机官宣:声称是首款联名产品」
5月17日消息,小米手机官方今日宣布小米Civi与迪士尼100周年特别合作款即将来临!这也是首款联名产品。据悉,该合作将会挑选一位迪士尼角色IP进行联名,但未公布具体发布时间。X40...
日期:05-17
K60至尊旗舰顶配版明日首销_全球首款开售的24GB内存旗舰 「3599元-Redmi」
8月14日,全新的Redmi K60至尊版如期与大家见面,其最大的卖点就是搭载联发科天玑9200+,同时配备了独显芯片X7和全新狂暴引擎2.0,安兔兔跑分达到了177万分,是目前安卓阵营的第一,性...
日期:09-09
元气森林营销中心原负责人叶礼诚被刑事拘留 涉嫌重大贪腐「元气森林市场部负责人」
雷递网 乐天 1月20日在腾讯、美团之后,元气森林也加入到反腐行列。元气森林日前宣布,原营销中心负责人、元气销售体系负责人叶礼诚因涉嫌贪腐被撤职,已被警方依法刑事拘留。礼...
日期:01-20
三星tab3怎么刷系统「三星tab3 8 0」
三星Tab3 8.0是一款8英寸平板电脑,于2013年6月发布。它采用了比以前更轻盈、更薄的设计风格,凭借其大屏幕、高分辨率和强大的处理器而备受欢迎。下面将从硬件参数、性能表现和...
日期:05-30
互联网直播录音制品试行付酬标准发布,每年100-10000元不等(广播电视台播放录音制品支付报酬暂行办法)
7月25日,中国音像著作权集体管理协会在官网上发布了互联网直播录音制品的试行付酬标准。   最新修改的《著作权法》第45条新增了音乐制作者的“获酬权”:即网络直播中使用音...
日期:07-31
昆仑万维:将在今年内发布中国版类ChatGPT代码开源
2月9日 消息:昆仑万维集团宣布,与奇点智源合作,将在今年内发布中国版类ChatGPT代码开源,防止大公司技术垄断。三星galaxy book2评测昆仑万维表示,坚信开源是 AIGC 生态发展的土...
日期:02-09
印度 Infosys 签署五年人工智能协议 预计支出金额约为 20 亿美元
7月18日消息:印度第二大软件服务出口商 Infosys 周一表示,与一家现有客户签署了一项合约,提供为期五年的人工智能(AI)和自动化服务,预计支出金额约为 20 亿美元。图片来自Infosys...
日期:07-18
iPhone 14 Plus开售既破发:掉价400多元 罕见被冷落「苹果14会涨价吗」
本周,iPhone 14系列中的最后一款机型iPhone 14 Plus正式发布,首批预约的用户在本周已经陆续拿到了手机,而尴尬的是iPhone 14 Plus首销的当天就破发了,渠道原价6999元的原价已经...
日期:10-18
没有谁可以帮你「没有谁能保证你赚钱!」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。但凡向你保证可以赚钱的,都是割你韭菜的,总会让你付出代价的。我知道说...
日期:03-28
哨兵模式数据仅存储在车辆本地」-另外特斯拉已在中国建立数据中心 「特斯拉回应“机场禁止入内”
IT之家 8 月 14 日消息,据九派新闻今日报道,8 月 12 日,湖南岳阳,有网友爆料称,三荷机场的停车场立有告示,写道“涉密管制区域,禁止特斯拉入内”。机场公安接线人员表示确实贴有这...
日期:09-17
iOS 17全面推送,惊现iPhone应用分身!正式发布!_iphone应用分身软件
在前几天的苹果秋季发布会上,我们迎来了期待已久的iOS 17系统。这次的更新不仅带来了全新的设计和功能,还有一些重大的隐私保护改进,其中最让人惊喜的就是首次支持的iPhone应用...
日期:09-27