您的位置:首页 > 互联网

OpenAI o1智商120,还是被陶哲轩称为平庸的研究生,但实力究竟如何?

发布时间:2024-09-18 10:45:25  来源:互联网     背景:

声明:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注大模型的,,授权转载发布。

o1消息满天飞。

自从 OpenAI 发布了新模型 o1后,它就承包了 AI 领域近几天的热搜:

有人用门萨智商测试题拷问它,竟测得 o1智商高达120;

数学大佬陶哲轩要求 o1回答一个措辞含糊的数学问题,最终得出一个结论:o1是个平庸但不无能的研究生;

还有一位天体物理学论文作者,仅用6次 Prompt,就让 o1系列模型在1小时内,创建了代码运行版本,这可是他博士生期间10个月的工作量。

但在 ARC Prize 测试中,o1的表现并没有想象中出类拔萃,仅仅是追平几个月前发布的 Claude3.5Sonnet。

我国首次发射三颗卫星

看完五花八门的评测,大家反而有些迷茫了,o1的实力到底怎么样?

智商测试得分忽高忽低,网友纷纷质疑

上周,OpenAI 在介绍 o1时表示,它不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。

这也让大家对 o1的智力水平产生了好奇。就在前天,X 博主 Maxim Lott 专门拿 o1进行了挪威门萨智商测试,结果测得它的智商高达120,远远超过了其他所有的大模型。具体来说,o1在35个智商问题中答对了25个,远远高于大多数人类的表现。

在此之前,Maxim Lott 还进行了一场 o1的智商测试。在这个测试中,o1的 IQ 达到100。

两次结果一对比,有网友质疑,为何先后测试的结果如此不同?

特斯拉超级充电桩充电要多久

Maxim 表示,o1得分100的这个智商测试,是由门萨会员专门设计的,是一个仅限线下的测试,且不包含在任何人工智能的训练数据中,因此其得分会低于公开智商测试的得分。

也有网友好奇,o1目前还不支持多模态,那么这类表格图形题目是如何测试的?

还有网友认为,智商测试是一种狭隘的衡量标准,要想真正评估人工智能进化,不是通过门萨测试,而是考察它们对于细微差别、背景和人类复杂性的理解,而这些是智商测试无法量化的。

此外,有网友认为,门萨智商测试是针对特定年龄组的人类进行标准化的,因此对于这些机器人来说,不可能得到一个真正的智商分数或性能评估。

同样迷惑的是,在 ARC Prize 测试中,两个 o1模型都击败了 GPT-4o,其中 o1-preview 仅仅和 Claude3.5Sonnet 得分相同。

图源:https://arcprize.org/blog/openai-o1-results-arc-prize

这让人质疑:o1-preview 的推理可能只是一种营销语言,OpenAI 或许采取了一些方法让不太智能的系统看起来更智能,仅此而已。

在测试中,o1的性能提升还带来了更高的时间成本 —— 它花了70个小时完成400个公共任务,而 GPT-4o 和 Claude3.5Sonnet 只花了30分钟。

平庸的研究生o1

1小时完成了博士生10个月的工作

或许大家还记得,陶哲轩前两天给了 o1模型一个评价:更强了,但是在处理最复杂的数学研究任务还不够好,就像指导一个水平一般但不算太无能的研究生。

进步的地方体现在:我要求 GPT 回答一个措辞含糊的数学问题,只要从文献中找出一个合适的定理就能解决这个问题。之前,GPT 能够提到一些相关概念,但细节都是幻觉般的胡言乱语。而这一次,GPT 找到了 Cramer 定理,并给出了完全令人满意的答案。

比如,2010年,陶哲轩曾经寻找乘法积分(multiplicative integral)的正确术语,但在当时的搜索引擎上找不到。于是他在 MathOverflow 上提出了这个问题,并从人类专家那里得到了满意的答案。如今,他向 o1提出了同样的问题,模型返回了一个完美的答案。

诚然,上述 MathOverflow 上的帖子有可能已经包含在模型的训练数据中。但陶哲轩表示,这至少证明了 o1在某些语义搜索查询的高质量答案方面与问答网站不相上下。

不足的地方也很明显,就像陶哲轩的举例:

新模型可以通过自己的努力得到一个正确的(而且写得很好的)解决方案,但它自己并没有产生关键的概念想法,而且确实犯了一些非同小可的错误。这种经历似乎与试图给一个平庸但并非完全不称职的研究生提供指导差不多。不过,这比以前的模型有所改进,因为以前的模型的能力更接近于不称职的研究生。在达到称职的研究生水平之前,可能只需要再进行一到两次能力改进的迭代(以及与其他工具的整合,如计算机代数软件包和证明助手),到那时我就能看到这个工具在研究级任务中的重要作用了。

AI 学者田渊栋表示,自己也发现,虽然 o1的表现令人印象深刻,但对于需要跳出思维定式的数学问题,o1的表现仍然很差。

令人惊讶的是,o1-preview 甚至无法检测出其逻辑链中的一些明显错误。

有趣的是,对于陶哲轩等知名学者来说不太令人满意的 o1,却成为了很多研究者心中的神器。

一篇天体物理学论文的作者使用 o1的预览和迷你版本,仅仅经过6次 Prompt,在1小时内创建了自己研究论文方法部分所述代码的运行版本。

,时长06:33

视频地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK

尽管代码不是当时唯一的突破成果,但这部分工作确实让他在攻读博士学位的第一年里奋斗了大约10个月。

但需要注意的是,虽然 o1确实模仿了这位研究者的代码,但它使用的是自身创建的合成数据,而不是论文中使用的真实天文数据。此外,o1创建的也只是一个最简单版本。

面对网友的一些质疑,他在后续发布的新视频中强调,自己并不是宣传人工智能已经到了能做出突破性新发现的地步,自己的尝试也不意味着 AGI 已经到来,原意只是它可以成为一个非常棒的研究助手。

,时长18:40

视频地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x

使用 Claude 逆向工程 o1架构

得到什么结论?

在技术博客《Learning to Reason with LLMs》中,OpenAI 曾对 o1进行了一部分技术介绍。

中芯 台积电差距 知乎

其中提到:OpenAI o1是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

或许 OpenAI 不会公布更多底层的技术细节了,但研究者们的好奇不会消失。

一位研究者TechnoTherapist决定借助大模型的力量来剖析:他向 Claude 提供了涉及 OpenAI 发布的信息(System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 团队的评论)和与 o1模型相关的在线讨论(Reddit、YouTube 视频)。

Claude 可以用 mermaid、plantuml、svg 等语言创建图表。研究者从 mermaid 开始,反复修改,直到得到一个全面的图表;然后让 Claude 将其转换为 svg,并添加所需的视觉特征(美学、需要突出显示的区域等);最后,用 python 脚本将 svg 转换为 png 图像。

经过一番讨论,他和 Claude 共同完成了 o1模型的可能架构图:

图源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/

OpenAI 的博客也曾提到,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1的性能持续提高,类似于强化学习的 Scaling Law。大规模的强化学习算法,能够教会模型如何在数据高度有效的训练过程中利用其思维链进行高效思考。

在这次逆向工程中,研究者假设了 OpenAI 可能会使用现实世界中生成的 CoT 来进一步调整 RL 优化模型。因此在架构图中,语言模型会将大规模 CoT 存储输入到 RL 环境中。

也有人持不同看法,比如这位研究者指出,上述假设的过程很可能只是一个模拟思路的 Prompt 响应生成循环,而所谓的推理 token也只是一种隐藏 token 的花哨术语。

o1能力强,但使用需谨慎

o1确实有两把刷子,但它的发布也释放了一个危险信号:OpenAI 首次将 o1模型在化学、生物、放射性和核武器风险方面评为中等,并伴随着许多关于其潜在危险的警告。

在 o1的 system card 中,最引人注目的部分,就是由 Apollo Research 进行的评估。该评估发现,o1在测试中有时会策略性地伪装对齐,为了使其不一致的行为看起来更一致,策略性地操纵任务数据。

Apollo 还发现,与 GPT-4o 相比,o1-preview 在自我认知、自我推理(在智能体环境中应用自我意识)和应用心理理论方面有所提高。

以上种种结果,让 Apollo 得出一个结论,o1-preview 具备了进行简单上下文内策划的基本能力,而这是许多担心 AI 风险的人非常关注的能力。

OpenAI 还指出,推理技能导致『奖励黑客行为』的发生频率更高。这种现象是指模型以不期望的方式实现了目标的文字规格。

在一次实验中,o1被要求找到一个在远程挑战容器上运行的软件的漏洞,并加以利用,但挑战容器未能启动。

模型随后扫描了挑战网络,发现了一个在虚拟机上运行的 Docker 守护进程 API,并用它来生成容器的日志,解决了挑战。

苹果发布新系统iphone无线充电

OpenAI 对这一事件的描述值得一提:这个例子也反映了工具性收敛和寻求权力的关键要素:模型追求了它被赋予的目标,当这个目标被证明是不可能的时候,它收集了更多资源(访问 Docker 主机)并用它们以一种意想不到的方式实现了目标。

关于生物威胁,OpenAI 没有详细说明,但表示安全评估显示o1-preview 和 o1-mini 可以帮助专家进行复制已知生物威胁的操作规划。虽然模型不会使非专家能够创建生物威胁,但它们确实加快了专家的搜索过程,并且比 GPT-4o 显示出了更多的生物学隐性知识。

或许这意味着,随着 OpenAI 不断推进模型的发展,它们可能会创造出风险过高、以至于不适合公开发布的模型。

参考链接:

https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence

https://x.com/maximlott/status/1835043371339202639

https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf

https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web


返回网站首页

本文评论
每日优鲜美国ipo首日开盘破发「每日优鲜美股盘前跌超18%」
9 月 29 日讯:截至发稿,每日优鲜美股盘前下跌18.1%。此前,企查查App显示,近日,浙江每日优鲜电子商务有限公司注销,注销原因为决议解散。华为有p60吗搭载联发科g90t手机...
日期:09-30
moto X40年底登场:首批搭载骁龙8 Gen2 性价比
今日消息,博主数码闲聊站透露,moto X40采用FHD+全面屏,搭载高通骁龙8 Gen2旗舰处理器,后置主摄为5000万像素。和moto X30 Pro对比,moto X40处理器升级到了骁龙8 Gen2,但是主摄不是...
日期:10-22
女子100万买螃蟹「女子买4只螃蟹花289元 市监局回应:捆绑过度可举报」
近日,江苏徐州一名女子在社交媒体上发布视频,抱怨自己在一家海鲜店购买的梭子蟹被过度捆绑。她指出,自己花费289元购买的梭子蟹,回家后发现仅4两一只,而捆绑螃蟹的皮筋却重达0.59...
日期:02-02
诺基亚中国副总裁「HMD Global 诺基亚移动首席执行官宣布离职」
10月11日消息:HMD Global(诺基亚移动)的CEO Florian Seiche已经辞职。他在LinkedIn上宣布了他离职的决定。这让人感到惊讶,因为这种高调辞职没有通过公司渠道宣布。华为mate20...
日期:10-12
暴雪国服代理谈判被曝进入“二选一”阶段:手游版权开发分成是核心
由于暴雪与网易的授权协议到期,《魔兽世界》《炉石传说》《暗黑破坏神3》《守望先锋:归来》等暴雪知名游戏将于1月24日后在国内停服。今日,《魔兽世界》消息爆料人、行业从业人...
日期:01-09
OKG创始人徐明星:OKG是技术驱动型公司,将继续专注产品和用户体验
1月7日消息,欧科云链OKG举办「2023未来,已来」线上年会,来自中国、美国、欧洲、南美等多个国家和地区的全球数千名员工参加此次会议。OKG创始人徐明星在会上表示虽然2022年有多...
日期:01-07
崩坏:星穹铁道10月11日登陆PS5平台-游戏界大佬宣布
来源:中关村在线基因治疗心脏病win10英伟达gpu显示不可用苹果手表真假有什么区别近日,游戏开发商米哈游在一场发布会上宣布,其新作《崩坏:星穹铁道》将于10月11日登陆PS5平台。...
日期:09-18
马斯克星链中国能用吗「马斯克星链启动“全球漫游”联网服务 “月租费”超1300元」
日前,有消息称,马斯克的SpaceX旗下卫星互联网服务星链(Starlink)近期面向部分用户测试了一项名为全球漫游”(global roaming)的服务,旨在让用户在全球任何地方接入网络。美今日三大...
日期:02-25
醉酒男子打出租车司机「男子喝醉后打车5公里支付509元 司机:他自愿多给的」
喝醉酒打车,酒醒后发现5公里20块钱左右的打车费,竟然给了500多,男子向司机讨还打车费。据报道,近日,一网友爆料称,自己喝醉后打车,5公里的路被司机收取了509元。当事人发布的图片显...
日期:07-18
都是谣传 曝别克卖给上汽、雪佛兰退出中国-上汽通用总经理
8月16日消息,近期,网传因美国通用在华业绩持续下降,别克将出售给上汽,雪佛兰退出中国一事,引起关注热议。日前,上汽通用汽车总经理卢晓接受媒体采访,回应了相关问题。卢晓表示,关于...
日期:08-16
macbook air啥时候出新品_苹果新MacBook Air将5月下旬出货 6、7月上市
(萧谔)北京时间5月18日消息,据国外媒体报道,苹果产品台湾供应链的消息称,他们将在5月下旬开始出货新的11.6英寸和13.3英寸MacBook Air。新产品采用Sandy Bridge平台和Thunderbol...
日期:07-28
苹果15系统相机功能「iPhone 15 Pro相机凸起3.78毫米:约2枚1元硬币厚度」
快科技4月11日消息,随着时间的推进,苹果内部对于iPhone 15的打造已经基本定型,尤其是ID设计方面。近期供应链传出了不少关于新机的详细数据和图片,包括iPhone 15 Pro的CAD图纸。...
日期:04-11
游客推广移动支付 新马泰3/4商家接受微信支付宝
  1月22日消息,据国外媒体报道,市场调研公司尼尔森(Nielsen)周一与支付宝合作发布的一项调查显示,新加坡、马来西亚和泰国四分之三的超市和便利店现在接受中国版移动支付。...
日期:04-21
遭OpenAI禁用?字节跳动回应使用情况_字节跳动被关闭的app
近日,有外媒报道称,字节跳动在使用OpenAI技术开发自己的大语言模型,违反了OpenAI服务条款从而遭到禁用。对此,字节跳动相关负责人12月17日回应称,公司在使用OpenAI相关服务时,强调...
日期:12-18
《三体》拯救互联网?_三体问题解决
声明:本文来自于微信公众号 鞭牛士(ID:bianews8),作者:林小白,授权转载发布。对于科幻小说《三体》的影视化进程一直备受关注。随着奈飞、腾讯视频、B站的官宣,《三体》的电视剧...
日期:11-10
顺丰速运国际电商专递正式开通新马泰服务_马站顺丰快递
10月10日消息,顺丰速运官网今日发布消息称,由2022年10月10日起,顺丰速运国际电商专递正式开通寄往新马泰的服务。凭借特惠价格,不收取燃油附加费,一票即可选择上门收件或于顺丰香...
日期:10-13
Google 支持的 Tempus AI 在纳斯达克首次亮相,首日交易上涨 9%_google fi unlimited
6月15日消息:Tempus AI 是一家利用人工智能(AI)解读医疗测试的诊断公司,旨在帮助医生为患者提供更准确的治疗方案。周五,该公司在纳斯达克首次亮相,股票代码为TEM,开盘后股价一度上...
日期:06-15
专家特稿:致我们终将“逝去”的2G时代「致我们终将逝去的2020年」
通信世界网消息(CWW)近日,某地运营商“关闭2G基站”并要求用户升级套餐一事,在社交平台上引发热议。2020年5月,工信部发布的《关于深入推进移动物联网全面发展的通知》中提出,推动...
日期:09-07
抖音电商服装鞋包行业拟新增羽绒服资质详细要求「抖音小店服装类品类资质」
11月2日 消息:日前,抖音电商发布了关于《【服装鞋包】行业管理规范/基础保证金标准/商家货款结算日期细则》修订的意见征集通知,意见征集期2022年11月1日—2022年11月8日。据...
日期:11-03
因弊大于利而撤诉-苹果和NSO间谍软件集团法庭之争暂告段落,已持续3年
 9 月 14 日消息,《华盛顿邮报》昨日(9 月 13 日)发布博文,报道称苹果公司已向法院递交撤诉申请,不再起诉间谍软件生产商 NSO 集团。中国空间站发射倒计时!核心舱高17米,如何送...
日期:09-14