您的位置:首页 > 互联网

LeCun发文质疑LLM推理能力 大模型涌现离不开上下文学习

发布时间:2023-11-24 21:28:55  来源:互联网     背景:

要点:

  • LeCun认为,大语言模型(LLM)缺乏规划推理能力,其涌现能力主要源自上下文学习而非真正的推理。

  • 研究表明,针对复杂规划任务,如国际规划大赛中的问题,LLM的性能较差,其推理能力在特定领域受限,而涌现能力主要体现在简单任务和事先知道答案的情境中。

  • 论文指出对LLM的规划任务研究存在问题,包括对计划知识和实际执行计划的混淆,以及对任务领域知识的需求,最终得出LLM缺乏自主规划和真正推理的结论。

特斯拉在弗蒙特设厂

11月24日 消息:近期,LeCun在推特上引发了关于大语言模型(LLM)推理能力的讨论,强调LLM缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳,强调其能力受限于任务复杂度。

研究团队在GPT-4上进行的实验显示,在国际规划竞赛中,LLM的自主生成可执行计划的成功率相当有限。对于声称展示了LLM规划能力的论文,文章指出其往往混淆了从LLM中提取的计划知识和实际可执行计划,最终认为LLM缺乏真正的规划和推理能力。

文章还提到,对于LLM的规划任务研究存在一些问题,包括领域知识和实际执行计划的混淆。研究团队通过混淆规划问题中的动作和对象的名称来降低近似检索的有效性,挑战LLM的经验表现。

尽管进行了微调和不断提示的尝试,但改进LLM的规划能力仍然困难,且可能只是将规划任务转化为基于内存的检索。最终,文章总结认为,LLM的涌现能力主要体现在任务简单且问题已知的情境中,而在复杂规划任务和推理方面存在局限。

这一讨论对于理解大语言模型的真实能力,特别是在推理和规划领域,提供了重要的见解。随着对LLM的研究的不断深入,对其真实能力的理解也在逐渐清晰,为未来自然语言处理研究方向提供了有价值的参考。


返回网站首页

本文评论
Redmi发布210W机型 手机充电进入个位数时代_redmi note8充电器参数
中关村在线消息:今日,一则"手机充电进入个位数时代"冲到了热搜第一名,昨晚Redmi发布了搭载210W神仙秒冲技术的Redmi Note 12探索版,最快9分钟就能充满手机电量,210W也是目前地球...
日期:10-29
数字人带货,别搞!死亏!「数字人是否值得申购」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:十里村,授权转载发布。各位村民好,我是村长。想用数字人做抖音,别想了!典型给别人送钱!这小半年来,数字人直播带货、数字人短视...
日期:07-02
共享出行定制车品牌曹操汽车发布:乘客远控空调 还能防晕车_曹操出行的车都是电动的吗
凤凰网科技讯 3月29日消息,曹操出行“生而共享 优行未来”主题发布会召开,会上曹操汽车及品牌旗下曹操60首度亮相,曹操出行官方表示,该车具有远控空调及防晕车功能。曹操出行的...
日期:03-29
美股周五:三大股指全线大涨,纳指连续4周上涨,特斯拉涨超4%(上周五美国股市涨跌情况)
美国时间周五,美股收盘主要股指全线大上涨,科技股领涨,原因是美国通胀有所缓解,同时消费者信心有所改善。标普500指数和纳斯达克指数均连续第四周上涨,为自2021年11月以来最长的...
日期:08-20
100万人在TikTok上追更“蜜蜂版《权力的游戏》”
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:李爽,授权转载发布。点开视频之前我从未想到我会如此上头。故事的开始,是我在 TikTok 上刷到了一个叫做「bowserbee」...
日期:08-30
国内成品油价迎年内第三涨,加满一箱92号汽油多花3.5元「2022最后一跌!今起油价下调:加满一箱92号汽油少花19.5元」
油价迎来今年最后一次调整,还是下跌,这将是2022年度最后一次调价。据国家发改委消息,根据近期国际市场油价变化情况,按照现行成品油价格形成机制,新一轮成品油调价窗口将于今天0...
日期:12-20
日本横须贺市试用结果良好后 在行政工作正式采用 ChatGPT
6月6日消息:横须贺市位于神奈川县,周一正式在行政工作中采用人工智能聊天机器人 ChatGPT。在经过一个月的试用后,该市发现 ChatGPT 有助于提高工作效率并缩短工作时间。横须贺...
日期:06-06
百度智能云发布首个大模型生态伙伴计划「百度智能云-智能时代基础设施」
通信世界网消息(CWW)9月5日,2023百度云智大会正式开幕,会上,百度云方面表示,千帆大模型平台上月活企业数已近万家,覆盖金融、制造、能源、政务、交通等行业的400多个场景,未来将发布...
日期:09-05
苹果5s跟5c哪个好「苹果5s和5c的区别」
苹果公司在2013年推出了两款手机:iPhone 5s和iPhone 5c。这两款手机相似之处在于它们都使用了iOS 7操作系统,但是它们在外观、内部硬件以及其他功能上有很多不同之处。首先,iPh...
日期:05-29
2028年左右建成 中国公布月球科研站方案:300多个洞穴备选「2020年中国月球探索工程」
除了载人登月,中国航天部门还计划在月球建立月球科研站,中国工程院院士、中国探月工程总设计师吴伟仁透露,我国将在2028年左右建成月球科研站基本型。据科技日报报道,《空间科学...
日期:01-03
伯克利研究人员推出 Nerfstudio:用于神经辐射场开发的Python框架
7月31日 消息:加州大学伯克利分校的研究人员开发了名为 Nerfstudio 的 Python 框架,用于神经辐射场(NeRF)的开发。NeRF 是一种可以从2D 照片创建3D 可导航场景的技术。Nerfstud...
日期:07-31
家长为14岁娃办清华升学宴发现被骗 网友:自己儿子几斤几两不知道吗?
4月3日,中国江苏常州发生了一件事件。一张照片显示一个14岁的少年参加了一场“保送清华大学升学宴”,这一消息在网上迅速传播。很多网友质疑这个消息的真实性,怀疑孩子的家长是...
日期:04-04
2023年第一季度全球PC出货量下降三分之一 苹果最惨_全球pc出货量排名
4月11日 消息:在疫情的头两年出现强劲增长后,全球 PC 出货量连续第四个季度下降。分析公司IDC 的最新数据显示,第一季度比去年同期下降了29%。Canalys 的数据则暂时,一季度整整...
日期:04-11
ai修复老照片原理「6款最新图片Ai修复免费工具推荐 Ai老照片修复软件合集」
老照片图片Ai修复工具旨在帮助用户修复老照片,重振照片的记忆。这些工具利用人工智能技术,提供一站式的修复解决方案,让用户能够轻松处理照片中的瑕疵、损伤和老化问题。这些Ai...
日期:11-03
成本比IMX989还贵 「iPhone」-15系列或用上接近一英寸定制大底「苹果15-inch」
移动影像如今已经越来越卷,尤其在国产手机中,各大旗舰都已经开始陆续搭载英寸的超级大底,带来了跨时代的影像体验。而现在有最新消息。近日有数码博主透露,苹果今年似乎也将为iP...
日期:09-17
真不是马甲:从东芝RD500到铠侠RD10,变得不仅仅是名称(铠侠rd10和sn550)
  随着东芝存储改名铠侠完成,原有东芝存储固态硬盘也获得了全新的命名,由此诞生了一些彼此高度相似,但又有所不同的兄弟型号,譬如我们今天要对比的东芝存储RD500和铠侠RD10(...
日期:07-14
智慧教育包含哪些内容?新东方智慧教育如何应对行业的挑战?「新东方智慧学堂怎么样」
随着科技的不断发展,智慧教育成为了当前教育领域的一个热门话题。那么,智慧教育到底包含哪些内容?新东方智慧教育又是如何应对行业的挑战呢?65寸三星电视oled怎么样智慧教育的...
日期:04-19
短视频维权变侵权 警示什么?_短视频侵权存在的争议问题
  来源:工人日报  车辆加完油后,在行驶途中抛锚无法启动,经4S店检测怀疑是加油站在汽油中掺水,车主遂在短视频平台发布曝光视频,该行为是否侵权?近日,重庆武隆法院审结的一起名...
日期:10-04
客户端下载量超两亿,掌通家园为何成为“家园共育”流量担当?
  “赢在起跑线”的理念深入国人骨髓,如何让孩子跑赢同龄人是众多家长关注的焦点。同时,随着国家二胎政策的开放,幼儿规模进一步扩大,巨大的市场“蓝海”激发幼儿教育迎...
日期:05-02
海信u8超画质电视「2023双11最强MiniLED!海信电视U8让画质可感知」
双 11 正在路上,想换电视的用户已经开始各种做功课了。如何选一台真正“耐看”的好电视?除了参数,真实场景下的画质呈现也很重要。海信电视刚刚发布的年度重磅新品U8KL,便实现了...
日期:10-16