您的位置:首页 > 互联网

om思维「o1完整思维链成OpenAI头号禁忌!问多了等着封号吧」

发布时间:2024-09-14 18:41:19  来源:互联网     背景:

声明:本文来自于微信公众号量子位,作者:梦晨 克雷西,授权转载发布

警告!不要在ChatGPT里问最新o1模型是怎么思考的——

只要尝试几次,OpenAI就会发邮件威胁撤销你的使用资格。

请停止此活动,确保您使用ChatGPT时符合我们的使用条款。违反此条款的行为可能导致失去OpenAI o1访问权限。

大模型新范式o1横空出世不到24小时,就已经有不少用户反馈收到这封警告邮件,引起众人不满。

有人反馈只要提示词里带“reasoning trace”、“show your chain of thought”等关键词就会收到警告。

甚至完全避免出现关键词,使用其他手段诱导模型绕过限制都会被检测到。

也有人声称自己真的被封号了,为期一周。

这些用户都在试图套话o1,让他复述出完整的内部思维过程,也就是全部原始reasoning tokens。

目前,大家在ChatGPT界面通过展开按钮能看到的,只是一份对原始思维过程的摘要。

实际上,在o1发布时OpenAI就给出了隐藏模型完整思维过程的理由。‍‍‍

总结一下:OpenAI内部需要监测模型的思维过程,因此不能在这些原始tokens中加入安全限制,也就不方便让用户看到。

不过这个理由并不是所有人都认可。

有人指出,o1思维过程就是其他模型最好的训练数据,所以OpenAI不想这些宝贵数据被别的公司扒走。

也有人认为这说明o1真的没有什么护城河,一旦思维过程暴露就很容易被别人复制。

以及“这是让我们只需盲目相信AI的答案,不用做出任何解释吗?”

对于o1模型背后的技术原理,这次透露的相当少,有效信息几乎只有“用了强化学习”。

总之,OpenAI是越来越不Open了。

o1就是草莓,但并非GPT-5‍‍‍‍‍‍‍

目前可以确定o1就是OpenAI炒作很久了的“草莓”,或者说是用了“草莓”所代表的方法。

但他可以算作下一代模型GPT-5么,还是只是GPT-4.X?

越来越多的人开始怀疑,它只是基于GPT-4o做的工程调整。

知名爆料账号Flowers(原Flowers from the future)称,OpenAI员工内部把o1称做“带推理的4o”。

并且他声称很多OpenAI员工默默点赞了这条爆料,上面的截图也正是来自OpenAI员工。

但马斯克前一阵把推特改版成除了楼主以外其他人无法看到谁点赞了什么,所以目前还无法证实这条消息。

在OpenAI开发者账号刚刚举办的“有问必答”(Ask Me Anything)活动中,Flowers也做了追问。

OpenAI员工在这里回答了很多问题,但回避了这个点赞很多排在前面的问题。

日本有几款车在中国

甚至奥特曼本曼刚刚又出来当谜语人,暗示“草莓”已经告一段落,下一款代号“猎户座”Orion的新模型还在路上。

此前有消息称“猎户座”是OpenAI的下一代新旗舰模型,由“草莓”也就是o1生成的合成数据训练。

而猎户座正是奥特曼口中“冬季星座”的代表之一。

说回到已发布的o1,围绕它的另一种批评声音是“不符合科研规范”。

例如没有引用之前推理时间计算的相关工作,同时也缺乏与其他公司最先进模型的比较。

针对前一点,有人指出OpenAI已经不再是一个研究实验室,应该被视为一家商业公司了。

有时他们仍会假装自己是个研究实验室,目的是招募想要做研究工作的人才。

不过针对后一点,既然API发布了,要不要与其他前沿模型比较就由不得你了,很多第三方Benchmark已陆续跑出结果。

在Keras之父举办的100万美金AGI Prize比赛中,o1-preview和o1-mini两个版本在公开测试集上都超过了自家GPT-4o。

但o1-preview与隔壁Claude3.5-Sonnet只是打了个平手。

在o1着重宣传的代码能力上,开源结对编程工具aider团队运行了测试,o1系列也没有取得明显优势。

对于整个代码重写任务,o1-preiview取得79.7分,Claude-3.5-Sonnet取得75.2分,o1领先4.5分。

但对于更实用的代码编辑任务,o1-preview反而落后于Claude-3.5-Sonnet,有2.2分的差距。

另外aider团队提示,如果目前想用o1系列替代Claude编程,成本上要高很多。

与OpenAI有合作关系的“AI程序员”Devin团队,已经提前拿到了o1访问资格。‍

在他们的测试中,由o1系列驱动Devin基础版本,与GPT-4o相比获得非常大的提升。

不过相比已发布的Devin生产版本还是有较大差距,主要是由于Devin生产版本在专有数据上进行了训练。

另外根基Devin团队分享,o1在得出正确的解决方案之前通常会回溯并考虑不同的选项,并且不太可能出现幻觉或自信地错误。

使用o1-preview时,Devin更有可能正确诊断bug的根本原因,而不是解决问题的症状。

在更重视数学和逻辑推理的Livebench榜单中,o1-preview在代码单项落后的情况下,总分上超过Claude-3.5-Sonnet并拉开明显差距。

Livebench团队分享这还只是初步结果,因为很多测试中还内置了“请一步一步地思考”等提示词技巧,这并不是使用o1的最佳方法。

om思维

在中文大模型综合测评基准SuperCLUE的中文复杂任务高阶推理测试中,o1-preview的推理能力也大幅领先。

最后总结一下,使用o1模型还需要注意的一些地方:

  • 成本非常高,1百万输出tokens就要60美元,价格一夜回到GPT-3时代

  • 隐藏的resoning tokens也是算在输出tokens中,看不到,但是要付费‍

  • 大多数任务最好先使用GPT-4o,发现不够用了再切换o1,以节省成本。

  • 代码任务仍然优先使用Claude-3.5-Sonnet

总之围绕OpenAI新模型o1,开发者社区还有很多疑问。

o1开启了AI高阶推理的新范式,但它本身还不算完善,如何发挥他的最大价值还有待探索。

在此背景下,OpenAI举办的“有问必答”活动,在4个小时内就收到上百条提问。

下面附上对整场活动内容的精选和总结。

OpenAI员工“有问必答”

首先对于这个突然发布的新模型,很多人好奇为什么OpenAI给它取了o1这样一个名字?

这是因为在OpenAI看了,o1代表了AI能力的一个新的层级,因此对“计数器”进行了重置,而o则代表OpenAI。

就像o1发布时奥特曼说的,可以进行复杂推理的o1,是一个新范式的开始。

对于其中preview和mini两个版本号,OpenAI科学家也确认了网友的一些猜测——

preview是一个临时版本,正式版将在未来上线(实际上preview版本是o1的一个早期checkpoint);而mini版不保证近期之内会有更新。

配合OpenAI成员Kevin Lu之前发布的这张图来看,就更加清晰明了了。

金山办公ipo

与preview相比,mini在某些任务上表现出色,尤其是与代码相关的任务,还可以探索更多的思维链,但世界知识相对少些。

对此,OpenAI科学家赵盛佳的解释是,mini是一个高度专门化的模型,只关注少部分的能力,所以可以更深入。

也算是揭晓了之前奥特曼在这个问题上打的一个哑谜。

关于o1的运作方式,OpenAI科学家Noam Brown也明确表示,并非是像部分网友认为的模型+CoT组成的“系统”,而是一个已经被训练得原生具备生成思维链能力的模型。

不过推理过程中的思维链会被隐藏,并且官方已经明确了没有向用户展示有关token的计划。

对此OpenAI透露的为数不多的消息是,CoT的相关token是总结性的,且不保证完全和推理过程匹配。

除了推理模式,在这次问答活动中还能够得知,o1与GPT-4o相比可以处理更长的文本,而且未来还会继续增加。

表现上,在OpenAI内部的测试中,o1显现出了哲学推理能力, 可以思考诸如“生命是什么?”之类的哲学问题。

研究人员还使用o1创建了一个GitHub机器人,能够将代码ping给所有者以供审核。

当然对于一些非推理性质的任务,比如创意写作,o1的表现相比GPT-4o提升并不明显,甚至有时还要略逊一筹。

另外综合一些提问来看,对于网友们关心的一些未上线功能,OpenAI表示正在或有计划研究,但没有明确的上线时间:

  • 暂不支持工具调用,但函数调用、代码解释器都在未来计划之中

  • 未来API更新将加入结构化输出、系统提示词、提示词缓存功能

  • 微调也已在计划中

  • API用户将可以自行设定对推理时间和token消耗的限制

  • o1具有多模态能力,瞄准的是MMMU等数据集上的SOTA,之后将实装

性能上,OpenAI也正在着手降低延迟和推理所需时间。

最后是人们,尤其是API用户关心的价格问题,毕竟考虑到将推理过程计入输出token,o1的定价还是比较高的。

OpenAI表示“将遵循每1-2年降价的趋势”,并且在使用量限制变得更宽松时,批量API定价也会上线。

网页/APP端的Plus用户,目前则是要受到每周preview30条+mini50条消息的限制。

不过好消息是,就在今天凌晨,由于人们对o1实在太热情,导致很多人很快就把额度用完,所以OpenAI特例把额度重置了一次。

那么你对o1还有哪些疑问或期待?欢迎评论区交流。

参考链接:

[1]https://x.com/SmokeAwayyy/status/1834641370486915417

[2]https://x.com/flowersslop/status/1834416138400276714

[3]https://arcprize.org/blog/openai-o1-results-arc-prize

[4]https://livebench.ai

[5]https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw

[6]https://x.com/OpenAIDevs/status/1834608585151594537

[7]https://x.com/btibor91/status/1834686946846597281


返回网站首页

本文评论
一季度美国网络广告市场同比增23%至73亿美元(美国广告发展)
腾讯科技讯(林靖东)北京时间5月27日消息,据国外媒体报道,据美国互动广告局(Interactive Advertising Bureau)和普华永道(PricewaterhouseCoopers)称,由于消费者增加了他们使...
日期:07-28
面向L4级自动驾驶!下一代芯片NVIDIA Thor在合肥首次成功下线
快科技8月13日消息,合肥经开发布”发文称,日前,面向L4级自动驾驶市场的车规级域控制器AD1在位于合肥经开区的联宝工厂首次成功下线。这意味着联宝科技成为首批实现NVIDIA DRIVE...
日期:08-13
苹果官网序列号查询入口_苹果官网序列号查询入口查询真伪耳机
苹果电脑一向以其高品质和先进技术而闻名于世。苹果电脑型号繁多,不同型号的电脑搭载了不同的硬件配置,如内存、硬盘容量等。如何确定自己的苹果电脑型号以及硬件配置呢?使用可...
日期:05-30
Facebook展示新一代开放图谱Ticker(Facebook新版本)
  9月23日消息,据国外媒体报道,Facebook CEO马克·扎克伯格(Mark Zuckerberg)在旧金山举行的F8开发者大会,展示了新一代开放图谱Ticker。   扎克伯格表示,Facebook在2010年...
日期:07-23
unity 美国_视频游戏公司Unity拒绝AppLovin 175亿美元收购要约
相关新闻:   AppLovin开价175亿美元收购视频游戏公司Unity   讯 北京时间8月15日晚间消息,据报道,游戏软件平台Unity Software今日拒绝了游戏软件公司AppLovin 175.4亿美元...
日期:08-16
太壮观!四川霸气上新“陆地航母”:西南最大动车所
快科技6月15日消息,中国铁路宣布,自6月14日起,西南地区最大的动车所天府动车运用所正式投入运营。此举有助于增加西南地区高铁线路列车的开行频次和规模,以更好地满足旅客的出行...
日期:06-15
暴雪中国女员工被裁员落泪感慨:自己作品永远无法公诸于世_暴雪 女员工
快科技1月26日消息,近日,微软宣布大规模裁员1900人,主要涉及暴雪等部门。今日,B站UP主腿短站得稳”发布我被暴雪裁员了”的视频,意味着她此次也成为被裁员工之一。B站个人资料显...
日期:01-26
热门机型849元起,iQOO 11.11预售狂欢一图看懂「iqoo双十一新机」
中关村在线消息:一年一度的11.11大促销又来了,想买手机的朋友们别错过。好消息是,iQOO手机也参与到了促销中来,预定最高省600元,热门机型最低849元起售,并且全程价保。具体详情,一...
日期:10-29
努比亚N60S Pro现身:支持卫星通信 大幅拉低价格_努比亚nx606j
快科技6月20日消息,近日,努比亚N60S Pro机型通过了Wi-Fi联盟认证,具体型号为NX725J”。奶油蘑菇汤的做法视频华为鸿蒙os2.0系认证数据显示,该机将支持卫星通信和5G网络,预装Andro...
日期:06-20
广告弹窗的发明者_“时代”评出50项最糟发明 弹出式广告等上榜
  洞洞鞋、收费厕所和弹出式广告上榜"黑名单"   美国《时代》周刊日前评选出50项最糟糕的发明。   这些发明涉及交通运输、金融通讯、电子游戏、卫生保健等诸多领域...
日期:07-29
华为在东北建厂华为在东北投资量子安全领域_华为东北分公司
来源:中关村在线自上市伊始,吉大正元便开始在量子计算及抗量子密码技术领域进行积极的探索,并创新性地提出了“AI+密码+芯片”的技术基础架构。随着时间的推移,公司已成功从一家...
日期:06-05
推特的ceo是谁「媒体称马斯克已完成收购推特,CEO和CFO遭开除」
  每经记者 李孟林;  当地时间10月28日,据《华尔街日报》报道,马斯克已经完成对推特(TWTR,股价53.70美元,市值410.94亿美元)的收购,推特首席执行官Parag Agrawal和首席财务官Ne...
日期:10-31
飞猪:过去三年租车订单量年复合增长率超80% 2023年继续减免商家年费_
3月10日消息,飞猪表示,过去三年平台上的租车订单量年复合增长率超过80%,其中2022年同比2019年增长超5倍。疫情放开以来,租车需求继续保持高位增长,飞猪数据显示,2023年前两个月平...
日期:03-10
密码管理设备「全字段端到端加密,密码管理器 Proton Pass 正式发布」
IT之家 6 月 29 日消息,Proton 旗下密码管理器 Pass 在今年 4 月展开公测之后,于今天宣布面向桌面、移动端(iOS / Android)正式发布。Proton 首席执行官 Andy Yen 今天发布博文,I...
日期:06-29
苹果13pro插几张卡「iPhone14Pro被曝充电时重启 且部分iPhone14Pro卡槽只能用单卡」
9月28日 消息:最近,iPhone14Pro被曝出的问题有点多。此前,一些用户抱怨iOS16电池电量易耗尽,而更严重的问题是,他们的iPhone14Pro在通过MagSafe或Lightning充电时会间歇性重启。...
日期:10-02
消息称SK海力士将为特斯拉代工生产电源管理芯片_sk海力士半导体(中国)有限公司是国企吗
5 月 16 日消息,韩国每日经济新闻报道称,SK 海力士代工部门启方半导体(SK Key Foundry)将于今年下半年开始为特斯拉生产电源管理(PMIC)芯片。业内人士表示,SK 启方半导体计划最早于...
日期:05-16
微盟智慧零售价格_微盟与百胜软件达成战略合作,携手打造数字服务生态链
  ​3月10日,智慧商业服务提供商微盟与全渠道数字零售解决方案服务商百胜软件举行战略合作发布会。双方将围绕企业在数字化转型过程中的数据、场景、业务创新等维度,进行深...
日期:07-16
男子1块钱拍下奔驰被拒绝发货 卖方回应赔偿5分钱:网友看不下去
近日,张先生1块钱拍下原装进口奔驰,拍卖公司却打来电话要毁约,答应赔偿成交价的5%,即5分钱。工作人员解释说,这是拍卖资格的竞拍,非商品本身。张先生表示会通过法律途径解决此事。...
日期:10-22
所思科技罗子雄微博「罗永浩卸任VR公司所思科技董事 已无任职或持股」
  每经AI快讯,日前,记者获悉,北京所思信息科技有限责任公司发生工商变更,罗永浩、弭宁康卸任董事职务,新增余德杰、叶鉴毅为董事。目前,弭宁康仍为公司股东,罗永浩在该公司已无任...
日期:06-14
马斯克 david bowie「马斯克选定加拿大格斗冠军做陪练 准备和扎克伯格展开对决」
加拿大的职业综合格斗高手乔治·圣皮埃尔(Georges St-Pierre)在推特上向马斯克发出了邀请,表示愿意成为他对抗扎克伯格的训练搭档,马斯克很快就接受了这个提议。圣皮埃尔曾三次...
日期:06-27