「科技点亮生活智能改变世界」

您的位置：首页 > 互联网

耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

发布时间：2024-10-03 13:45:00 来源：互联网背景：

声明：本文来自于微信公众号新智元，作者:新智元，授权转载发布。

【新智元导读】LLM不会规划，大推理模型o1可以吗?ASU团队最新研究发现，o1-preview推理规划能力是所有模型之最，但仍未触及天花板。关键是，推理强，成本超高。

LLM依然不会规划，LRM可以吗?

OpenAI声称，草莓o1已经突破了自回归LLM常规限制，成为一种新型的大推理模型（LRM）。

它能够基于强化学习，通过CoT多步推理。并且，这种推理过程的代价，是高昂的。

来自ASU研究人员以此为契机，全面评估了当前LLM和新型LRM，在测试基准PlanBench上表现。

论文地址:https://arxiv.org/pdf/2409.13373

PlanBench是他们在22年提出，评估大模型规划能力的测试基准。

在最新测试中，研究人员发现，o1-preview表现出色，大幅领先其他模型，但也未完全通过PlanBench基准测试。

其他LLM，在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线，和X轴几乎融合。

足见，这些大模型的规划能力，非常地弱。

不过，作者指出，规划推理越长，o1-preview的准确率便会低于25%。

另外一个值得注意的点是，即便o1-preview超越了多数近似检索的普通LLM，成为一种近似推理器。

但是，这种推理成本高达42美元/100个实例。

总而言之，o1在推理规划方面开辟了新天地，但仍旧不是终极AI大脑。

最先进LLM，依然无法规划

作者认为，o1模型以往LLM很大不同在于，前者被训练成为近似推理器，而后者粗略视为检索器。

由此，o1发布之后，研究人员对其与普通的LLM进行了区分，并将o1称为大推理模型。

而要评估新模型的能力，以及局限性，还需要新的工具和评估方法。

PlanBench是在2022年GPT-3发布不久之后，亮相arXiv。此后，作者也在一个特定子集上（包含600个3-5block问题的静态数据集），重新测试模型。

尽管相继出现的LLM参数规模越来越大，算力成本越来越高，但它们在简单的规划问题上，依旧无法实现饱和。

而且，多项研究中的改进并不稳健，可推广力没有那么高。

因此，PlanBench可以作为LLM和LRM在推理规划任务上，是否取得进步的一个衡量标准。

不过需要注意的是，这种测试只能作为性能的上限，尤其局限于静态测试集。

如下表1中，展示了当前大模型在600个3-5Blocksworld静态问题测试集，以及600个语义相同但语法混淆的实例Mystery Blocksworld中的结果。

在这些模型中，Llama3.1405B在常规Blocksworld上，取得了最佳性能62.6%。

然而，尽管本质问题相同，许多模型在Mystery Blocksworld上，性能大打折扣几乎溃败。

没有一个模型，在PlanBench测试集中，达到5%的性能。

这是因为，LLM非常擅长提供等效表征之间的转换。

因此，大模型在Blocksworld未混淆语义语法的问题上，性能更高。这也预示着，如果LLM能够组合推理操作，明确提供从Mystery Blocksworld到Blocksworld表征翻译，或许LLM在此的性能差距应该会大幅缩小。

通过重写提示，研究人员发现，性能仅是提高了很小一部分—— GPT-4达到了10%。

作者还发现，与之前结果相反，单样本提示（one-shot）相较于零样本，并没有显著改善模型性能。

事实上，在许多模型中，one-shot效果似乎要差得多!

这一点，在对Llama系列模型的测试中，最为明显。

顺便提一句，在起初基准迭代中，研究人员并没有考虑效率问题，因为普通LLM生成某些输出，所需时间只取决于输出长度，与实例的语义内容、难度无关。

然而，LRM会根据输入内容，自适应改变每个实例所需的时间和成本，因此衡量计算效率变得尤为重要。

对此，ASU团队计算了不同模型的提示成本，如下表4所示。

看得出，100个实例，o1-preview推理的代价最高，为42.12美金。

接下来，就到了评估o1在PlanBench基准上的能力了。

从近似检索到近似推理

很多研究者都曾认为，通过近似检索来生成输出的标准自回归LLM，尽管能够在一系列系统1（快速、直觉性思考）任务中有着优异的表现，但不太可能具备更类似于系统2(慢速、分析性思考)的近似推理能力，而这种能力对于规划任务来说至关重要。

如今，OpenAI试图在o1上以不同的方式为底层LLM增添类似系统2的能力。

根据研究人员的推测，o1将底层LLM（很可能是经过修改的GPT-4o）与一个经过强化学习训练的系统相结合，该系统引导思维链推理轨迹的创建、整理和最终选择。

由此可知，o1与其他LLM存在两个主要区别:

第一，新增了一个额外的强化学习预训练阶段（可能是从大量合成数据中学习不同思维链的q值）;

第二，采用了一个新的自适应扩展推理程序（可能是通过类似rollout的方式进一步细化学习到的q值，然后再选择特定的思维链）。

不管怎样，从已知的细节来看，这个模型在本质上与之前的LLM有根本的差异。

在原始测试集上评估LRM

在需要2到16步计划来解决的原始Blocksworld测试上，o1实现了高达97.8%的正确率。在Mystery Blocksworld上，也有着52.8%的正确率。

更进一步，研究人员通过完全随机的字符串生成了新的混淆，并以此得到了难度更高的Randomized Mystery Blocksworld。

在这个测试中，o1仍能答对37.3%的问题——与那些一题都答不上来的LLM形成了鲜明对比。

过去国产手机品牌

扩大问题规模

LLM的思维链提示是非常脆弱的，很难随着问题规模的增大而稳健地扩展，而且不能诱导出通用的算法程序跟随。

为此，研究人员构建了一组有着110个实例的Blocksworld测试。其中，block的数量从6到20个不等，需要20到40步计划才能完成。

在不做任何混淆处理的情况下，o1-preview仅仅达到了23.63%的准确率，而且大部分都是来自于那些需要少于28步的问题。

hpv九价第三针超过26岁

可见，模型的性能还远未达到稳健的程度。

不可解的实例

一直以来，LLM都难以判断一个问题是否有解，而OpenAI则声称o1已经能够进行准确地识别了。

为了系统地测试这一点，研究人员修改了原始测试集中的100个实例——通过在每个实例的目标状态中添加一个on（x，y）类型的连接词，使目标变得不可满足。

结果显示，在Blocksworld中，o1只正确且明确地识别出了27%的实例是不可解的。

在19%的情况下，模型会返回一个点或某种[empty plan]标记，但没有对可解性做出任何解释或说明。这是不正确的，因为empty plan只有在目标已经满足的情况下才是正确答案。

在剩余的54%的情况下，模型生成了一个完整的计划。显然，这是不可能也是不正确的。

在Randomized Mystery Blocksworld中，结果更糟:

-16%的情况正确识别出了问题不可解

-5%的情况返回了empty plan

-79%的情况给出了一个不可能或不满足目标的计划

可见，不可解实例仍然是LRM的一个问题。

不仅如此，这种识别能力也是有代价的——o1有时会错误地声称可解的问题是不可解的（假阴性）。

在Randomized Mystery Blocksworld中，模型的假阴性率达到了11.5%。

准确性和成本的权衡与保证

随着LRM在规划任务上取得更好的性能，评估也必须明确考虑，选择通用模型而非成熟专门系统来带的利弊。

虽然o1-preview准确性超越LLM，但缺乏的是正确性保证。

而且，目前尚不清楚它是否具备成本效益。

与之前模型不同的是，o1API每次调用价格还包括基于使用推理token数量附加费用，并按照最高输出token计费。（这些token是在推理过程中生成，并没有直观展示出来）

这也就意味着，o1API费用用户是无法控制的。

作者表示，o1推出不到一周，他们在PlanBench基准上测试模型，竟花费了1897.55大洋（约13300元）!

而且，能够访问的o1-preview似乎在每个问题上，使用的推理token数量受到限制。

这一点也可以从图2的平稳变化中，可以看出。（包括如下散点图）

这就存在一种认为降低总成本，最高性能的因素。

如果完整版o1取消这一限制后，可能会提高整体准确性，但随之带来的高昂推理成本更加难以预测（只会更加离谱）。

o1-mini虽然更具性价比，但总体性能还是较差。

由此，o1模型在成本、推理时间、保证、性能权衡上，仅是一种粗粒度的评估选择。

经典的规划器Fast Downward在数据集上，能够以更少时间、计算、成本，实现了100%准确率，同时能够保证答案准确度。

而在PC上运行Fast Downward基本上不需要花什么钱，平均每个实例耗时0.265秒。这要比如上表2中，o1平均时间快了几个数量级。

它通常也是可预测的，而且能直接扩展到更难的实例。

普通LLM非常擅长在不同格式之间转换问题，并可以结合Fast Downward一起使用，成本还仅是LRM一小部分。

对于没有简单PDDL域和实例规范的问题，LLM-Modulo系统可能是一种更安全、更便宜的方法。

即将一个较小、较快的LLM与一个可靠的验证器循环运行，使得组合系统只输出保证正确的解决方案。

后面这两种方法提供正确性保证，却在o1这样的LRM中严重缺失。

如果一个通过那个推理AI非常自信地制定错误计划，就不能部署在安全关键和非遍历领域。

当前，o1还是一个完全黑盒系统，要比之前模型更甚。OpenAI不仅保密其架构和推理过程，还警告禁止想要了解内部机制的用户。

这也就让o1的可解释性变为不可能，也降低了整个系统信任度。

o1的创造性解释

值得一提的是，当模型给出错误答案时，它有时还会为其决定提供一个富有创意但毫无意义的解释。

换句话说就是，o1从产生幻觉变成了PUA……

在一个案例中，它认为一个无法解决的问题是可以解决的，因为一个目标条件虽然在最终状态中不存在，但在执行过程中的某个时点是真的，因此应该继续计算。

在另一个案例中，它宣称on（a，c）是真的，因为正如on(a，c)的字面意思，a在b上，而b在c上，因此a在c的上方。

结论

总结而言，LLM在原始Blocksworld测试集上的表现，会随着时间的推移有所提升。

其中，表现最佳的是Llama3.1405B——准确率高达62.5%。

然而，这些模型在同一领域的混淆版本上的糟糕表现，暴露了它们近似检索的本质。

相比之下，新的LRM，也就是o1，不仅几乎接近完美解决了原始Blockworld测试集，而且在混淆版本上首次取得了进展。

赛门铁克收购

受此鼓舞，研究人员又评估了o1在更长问题和无解问题上的表现。

但结果显示，之前这些准确率的提升既不具有泛化性，也不具有稳健性。

最后，团队希望这份研究报告能够很好地展示LLM和LRM的规划能力，并为如何切实评估它们提供有用的建议。

参考资料:

https://arxiv.org/abs/2409.13373

中国空间站"太空菜园"画面公开！一片欣欣向荣_太空站中国空间站

奥特曼：自认比o1聪明请举手_比奥特曼厉害

本文评论

李小龙谈手机内卷：不希望变噱头哪里搞不定华为去搞定_李小龙内功练法是什么

李小龙谈手机内卷：不希望变噱头哪里搞不定华为去搞定_李小龙内功练法是什么

快科技5月25日消息，目前智能手机行业竞争激烈，甚至厂商不得不内卷，这也导致手机天花板明显，需要厂商拿出魄力技术创新，在华为手机创新科技媒体沟通会上，华为终端BG CTO李小龙也回...

日期：05-25

国产妖板让老外大开眼界：GTX 1050 Ti直接内嵌了

国产妖板让老外大开眼界：GTX 1050 Ti直接内嵌了

　　日前，加拿大“白票王”Linus Sebastian上手体验来自东方的个性主板ZA-SK1050，来自一家名不见经传的中国公司Zeal-All。　　板子神奇的地方在于，明明台式机主板，却愣是把GT...

日期：06-09

生日快乐！看中国铁塔的十年巨变_中国铁塔成立

生日快乐！看中国铁塔的十年巨变_中国铁塔成立

通信世界网消息（CWW）十年前，正是我国深化‌国企改革、促进电信基础设施资源共享的特殊时期，2014年7月中国铁塔应时而立，负责我国通信基础设施的共建共享，被时代赋予了特殊意义。而...

日期：07-19

网盘用上大模型后「真香」！压箱底黑照3秒找到，亲朋好友都不淡定了

网盘用上大模型后「真香」！压箱底黑照3秒找到，亲朋好友都不淡定了

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:明敏萧箫，授权转载发布。想不到，有了AI加持，我也有在我司鲨疯的一天!同事的压箱底黑照，被我3秒钟就翻了出来，光速做成表情包先发...

日期：07-18

距今1万年的古人类「考古学家发现1.2万年前日历：足以改写人类文明的历史」

距今1万年的古人类「考古学家发现1.2万年前日历：足以改写人类文明的历史」

快科技8月8日消息，据媒体报道，考古学家在土耳其的哥贝克力遗址发现了1.2万年前的日历，这一发现足以改写人类文明的历史。这套古老而精密的计时机制，镌刻于一根历经万年风霜却依...

日期：08-08

香飘飘的营收：起起落落落落落落落落落落_香飘飘业绩下降

香飘飘的营收：起起落落落落落落落落落落_香飘飘业绩下降

显卡rxt2060亚马逊现时股价6s长曝光苹果和三星旗舰机图片来源：视觉中国vr产品对比苹果研发出5g芯片了吗pc发展阶段　　记者 |李昱茹;编辑 |牙韩翔　　曾经的国民奶茶香飘飘...

日期：08-16

国科云参加唐山市政务移动互联网应用程序IPv6改造提升部署推进暨专题培训会议，并作专题报告

国科云参加唐山市政务移动互联网应用程序IPv6改造提升部署推进暨专题培训会议，并作专题报告

近日，唐山市委网信办组织召开唐山市政务移动互联网应用程序IPv6改造提升部署推进暨专题培训会议。会议要求各单位及早谋划部署，争取早日实现党政机关、国有企业政务移动互联网...

日期：03-08

Elmo官网体验入口 AI网络副驾驶Chrome插件免费下载地址

Elmo官网体验入口 AI网络副驾驶Chrome插件免费下载地址

Elmo是一款AI网络副驾驶工具，可作为Chrome扩展程序使用。它能立即将网页内容压缩成简洁的摘要，提供特定问题的答案，从网页中搜集相关信息，并与PDF和YouTube视频互动，以提高用户的...

日期：04-02

三六零入选信通院《2023年AI4SE银弹优秀案例》

三六零入选信通院《2023年AI4SE银弹优秀案例》

1 月 25 日，由中国信通院人工智能研究中心和中国人工智能产业发展联盟（AIIA）主办的“大模型应用行动暨首站‘AI4SE创新巡航’”召开，会上公布了《 2023 年AI4SE银弹优秀案例》，三...

日期：01-26

不想吃到核食？这种“沙子”能追踪海产的来路。_海里沙子能做什么用

不想吃到核食？这种“沙子”能追踪海产的来路。_海里沙子能做什么用

相信大家都知道，前些日子，日本把接触过福岛泄露反应堆的核污染水，给排进太平洋里了。具体的危害也没有定论，托尼也不是核污染治理或生态上的专家，没法给一个负责任的回答。但从海...

日期：10-17

华为P60发布时间曝光影像实力或更强「华为p60概念图曝光」

华为P60发布时间曝光影像实力或更强「华为p60概念图曝光」

中关村在线消息：今日，微博博主曝光了华为P60系列的发布时间为明年第一季度，此前传出出的华为P60渲染图真实性存疑。该渲染图显示，华为P60采用了与P50相同的万象双环设计，正面屏幕...

日期：10-15

和 Teams 都将用于苹果Vision Pro耳机中微软Word、Excel

和 Teams 都将用于苹果Vision Pro耳机中微软Word、Excel

苹果刚刚发布了售价3，499美元的全新 Vision Pro 增强现实耳机，微软也准备将其 Word、Excel 和 Microsoft Teams 应用程序引入苹果的新平台。日本化妆品albion苹果简要演示了...

日期：09-25

一季度美国网络广告市场同比增23%至73亿美元(美国广告发展)

一季度美国网络广告市场同比增23%至73亿美元(美国广告发展)

腾讯科技讯(林靖东)北京时间5月27日消息，据国外媒体报道，据美国互动广告局(Interactive Advertising Bureau)和普华永道(PricewaterhouseCoopers)称，由于消费者增加了他们使...

日期：07-28

SONY提升图像感测器产能以满足中国手机厂商需求_索尼最新图像传感器

SONY提升图像感测器产能以满足中国手机厂商需求_索尼最新图像传感器

在全球图像感测器领域处于领先地位的SONY集团计划通过中国智能手机制造商的发展，进一步提高其图像感测器部门的盈利。创维空调质量排名第几据外媒报道，SONY集团总裁Hiroki Tot...

日期：12-24

我国将面向市场推出消费级卫星互联网产品_我国卫星互联网发展规划

我国将面向市场推出消费级卫星互联网产品_我国卫星互联网发展规划

通信世界网消息（CWW）作为我国卫星互联网运营商，中国卫通将向市场提供更多的消费级卫星互联网产品，联合航空公司推出航空卫星互联网产品流量套餐。2月26日，中国航天科技集团有限公...

日期：02-28

华为畅享50可以升级到4.0版本吗4.2_实用体验再升级- 华为畅享系列多款机型可升级至HarmonyOS

华为畅享50可以升级到4.0版本吗4.2_实用体验再升级- 华为畅享系列多款机型可升级至HarmonyOS

来源：中关村在线在智能手机市场竞争激烈、用户需求日益多样化的今天，对用户体验的细致打磨以及对问题的快速响应，往往更能赢得消费者的心。作为华为旗下的中端智能手机系列，华为...

日期：07-03

三星手机电池极易鼓包引发老外集体吐槽：别的牌子很少见到「三星手机电池鼓包了还能用吗」

三星手机电池极易鼓包引发老外集体吐槽：别的牌子很少见到「三星手机电池鼓包了还能用吗」

来自英国的Up主Mrwhosetheboss没想到，自己的运气会这么差。日前，在发现手头的Galaxy Note 8出现电池鼓包问题后，他决定买一部新手机。可屋漏偏逢连夜雨”，就在这时候，去翻找备用...

日期：10-01

中国区块链产业园区发展图谱研究_中国区块链产业园区发展图谱

中国区块链产业园区发展图谱研究_中国区块链产业园区发展图谱

锌链接整理了全国各地区块链产业园区的发展实况，从园区的规模、入驻企业、补贴政策，以及地方产业基金、产业政策共5个维度，希望为正在考虑发展选址问题的企业，提供参考...工信部...

日期：08-07

谷歌将恢复实时搜索整合Google+资源_google账号找回

谷歌将恢复实时搜索整合Google+资源_google账号找回

8月5日消息，据国外媒体报道，谷歌将很快恢复实时搜索。谷歌实时搜索将包括来自Google+和其它社交资源的数据。在上个月之前，谷歌实时搜索是谷歌实时提供来自Twitter、Faceboo...

日期：07-22

MAXHUB 即将启动百城新品品鉴会，挥师全国誓言再拓份额

MAXHUB 即将启动百城新品品鉴会，挥师全国誓言再拓份额

　　近日,国内会议平板市场先行者MAXHUB于线上发布了V5系列7款新品,瞄准细化会议场景的差异化需求,致力于为企业提供“量身定制”的智能会议办公工具,并推出30天免费试用的...

日期：07-14

最新资讯

本栏最新

随机推荐