您的位置:首页 > 互联网

草莓 waymen & any song k-pop type beat「OpenAI秘密武器草莓计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑」

发布时间:2024-07-14 13:21:21  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】OpenAI被曝出了新项目草莓,据悉能提前计划,自主浏览网页,还能进行深度研究。草莓由大量通用数据上后训练而成,推理能力显著提高。根据OpenAI最近的AGI路线图,草莓疑似已达Level2。

昨天刚刚被曝出AGI五级路线图,今天OpenAI的新项目Strawberry也被曝出了。

不过,大家其实对它都很熟悉——就是曾经的Q*。

听闻消息的马斯克,也补上这么一句评论——以前的说法是,AI末日是回形针灾难,没想到是永远的草莓田。

根据路透社在5月份看到的内部文件,OpenAI团队正在全力研究Strawberry项目。

Strawberry具体是如何运作,即使在OpenAI内部也是高度保密的。

因此,何时公开发布,时间也是未知。

从AGI五级路线图来看,具有推理能力还能自主可靠浏览网页的Strawberry,可能已经到了L2的级别

而就在本周,OpenAI刚在内部会议上展示了某个demo,据称推理能力接近人类水平。

结合路线图的曝光,一切都太巧了。

对此,网友们纷纷猜测,OpenAI一定还在憋个大的。

显著提高AI模型的推理能力

文件显示,Strawberry模型的目的,是为了使公司的AI不仅能生成查询答案,还能提前计划,足够自主且可靠地浏览互联网,进行OpenAI所称的深度研究。

而这个目标,根据对十多位AI研究人员的采访,目前尚未有任何AI模型实现。

草莓 waymen & any song k-pop type beat

路透社表示,Strawberry就是去年的Q*,后者在OpenAI内部已经实现突破。

当被问询到Strawberry的更多细节时,OpenAI发言人表示——

我们希望我们的AI模型能像我们一样看待和理解世界。对新AI能力的持续研究是行业中的常见做法,大家普遍相信,这些系统的推理能力会随着时间的推移而改善。

知情人士表示,OpenAI希望Strawberry的创新能显著提高其AI模型的推理能力,并补充说,Strawberry涉及了一种AI模型在经过非常大的数据集预训练后的一种特殊处理方式。

而路透社采访的研究人员表示,推理是AI达到人类或超人类智能的关键。

虽然LLM可以飞速总结密集文本、撰写优美文章,但在解决对人类很直观的常识性问题时,如识别逻辑谬误和玩井字棋时,表现并不佳,常常出现幻觉。

研究者表示,在AI背景下的推理,就需要一个模型让AI能提前计划,反映物理世界的运作,并且可靠地解决复杂的多步骤问题。

改进AI模型的推理能力,被认为是解锁这些模型潜力的关键。有了推理能力,模型在进行重大科学发现、规划构建新的软件应用上,都会有可观的提升。

Sam Altman此前也曾表示,今后AI领域最重要的进展,将围绕推理能力展开。

而其他巨头,如谷歌、Meta、微软等,都在尝试不同技术,来改进AI模型的推理能力。

沿着目前的路线,有可能实现让LLM将想法和长期规划纳入其预测方式吗?图灵三巨头之一的LeCun对此持唱衰态度。

他坚决认为,LLM不具备类人的推理能力。

草莓是什么游戏

后训练,能让LLM学会推理吗

要克服这些挑战,对OpenAI来说Strawberry就是关键。最近几个月,OpenAI曾私下向开发者和外部人士暗示过,即将发布具有显著先进推理能力的技术。

据悉,Strawberry包括一种被称为后训练的特殊方法,即在OpenAI的生成式AI模型已经在大量通用数据上训练后,调整基础模型以特定方式优化其性能。

模型开发的后训练阶段涉及微调等方法,这一过程几乎如今所有的LLM都在用,比如RLHF。

知情人士表示,Strawberry类似于斯坦福大学在2022年开发的一种方法——自我教导推理者(Self-Taught Reasoner,简称STaR)。

论文地址:https://arxiv.org/abs/2203.14465

论文作者之一,斯坦福教授Noah Goodman表示,STaR使AI模型能够通过迭代创建自己的训练数据,来自我提升到更高的智能水平。

理论上,可以让语言模型实现超越人类水平的智能。

结果显示,在算术、数学文字题和常识推理中,STaR能够有效地将少量的少样本提示转化为大量的推理数据集,从而显著提升性能。在CommonsenseQA上,STaR比少样本基线提高了35.9%,比直接预测答案的微调基线提高了12.5%,其表现与一个大30倍的微调模型相当(72.5%对73.0%)。

另一项OpenAI希望让Strawberry具备的能力之一,是执行长时间任务(LHT),这指的是需要模型提前计划,并在较长时间内执行一系列动作的复杂任务。

文件显示,为了实现这一目标,OpenAI正在创建、训练和评估被称为深度研究数据集的模型。

OpenAI非常希望模型能够利用这些能力,通过一个称为CUA的计算机使用Agent来自主浏览网络,并根据其发现采取行动来进行研究。

此外,OpenAI还计划测试其在软件和机器学习工程师工作中的应用能力。

神秘项目疑似Strawberry加持

就在2024年7月初的一次全员会议上,OpenAI内部曾对一个神秘研究项目做了展示。

据称,它所展现出的推理能力,已经达到了类人的水平。

结合前文的信息,路透怀疑这可能与Strawberry有关,但目前还无法确定。

而同一时间曝光出的这张通往AGI的路线图,似乎也印证了OpenAI即将会有新的进展。

为什么手机收不到验证码怎么解决VⅰvoY3o

可以看到,OpenAI将最终抵达AGI终点,划分了五大等级:

L1:聊天机器人,具有对话能力的AI。

L2:推理者,像人类一样能够解决问题的AI。

L3:智能体,不仅能思考,还可以采取行动的AI系统。

L4:创新者,能够协助发明创造的AI。

L5:组织者,可以完成组织工作的AI。

OpenAI表示,我们目前正处在第一级别,不过很快会达到第二个级别,即推理者。

所谓推理者,也就是指可以解决博士水平的基本问题的系统。

OpenAI CTO曾透露,OpenAI接下来将致力于研究在特定任务上博士级别的智能,也许就在一年或一年半之后实现。

也就是说,我们还有18月的时间,即将看到级别二的下一代模型。

Q*重出江湖

2023年11月,OpenAI的神秘Q*项目,引爆整个AI社区。

泄露出来的信息,Q*的能力,是能够解决小学阶段的数学问题。

虽然在大多数人看来,这并不是什么令人印象深刻的事,但这的确是朝向AGI迈出的一大步,堪称重要的技术里程碑。

因为Q*解决的,是以前从未见过的数学题。

Ilya做出的突破,使OpenAI不再受限于获取足够的高质量数据来训练新模型,而这,正是开发下一代模型的主要障碍。

AMD处理器市场份额

那几周内,Q*的演示一直在OpenAI内部流传,所有人都很震惊。

草莓评测

赛尔号鲁比克怎么获得

据悉,OpenAI的一些人认为Q*可能是OpenAI在AGI上取得的一个突破。AGI的定义是:在最具经济价值的任务中,超越人类的自主系统

所以,Q*究竟是啥呢?

这要从一项1992年的技术Q-learning说起。

简单来说,Q-learning是一种无模型的强化学习算法,旨在学习特定状态下某个动作的价值。其最终目标是找到最佳策略,即在每个状态下采取最佳动作,以最大化随时间累积的奖励。

斯坦福博士Silas Alberti由此猜测,Q*很可能是基于AlphaGo式蒙特卡罗树搜索token轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索token树。这在编码和数学等环境中尤为合理。

随着几位AI大佬的下场,大家的观点,愈发不谋而合了。

AI2研究科学家Nathan激动地写出一篇长文,猜测Q假说应该是关于思想树+过程奖励模型。并且认为Q*假说很可能和世界模型有关!

文章地址:https://www.interconnects.ai/p/q-star

他猜测,如果Q*(Q-Star)是真的,那么它显然是RL文献中的两个核心主题的合成:Q值和A*(一种经典的图搜索算法)。

A*算法的一个例子

GPT-4o放出新演示

话说,OpenAI最近似乎没有多大动静了。

最近的技术进步,我们可以从OpenAI开发者体验主管Romain Huet在旧金山人工智能工程师世界博览会上的分享中感受一下。

这些分享主要是产品演示,包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine(未发布),

虽然示例有所不同,但用到的模型能力,与5月份在巴黎VivaTech活动上所展示的基本一致。

在这个演示中,主管让GPT-4o表演了多种语调,比如激情四射版、悄悄话版等。

GPT-4o可以即时听懂Huet的命令,立马做出正确的反应,在场观众给出欢呼。

接下来,Huet向ChatGPT出示了金门大桥的手绘图,让它猜猜自己在哪里。

ChatGPT马上猜出来这是哪个大桥,并说出Huet在旧金山,还认出了他在纸上的手写字——Bonjour Developer!

随后,Huet又迅速给了它一堆任务,比如认出查理芒格的书,随机翻一页后迅速总结书页大意等等,ChatGPT没有任何迟疑,迅速给出了正确答案,效率令人惊叹。

下一步,Huet把prompt发给Sora,Sora立马就生成的符合要求的视频——自然纪录片风格的丛林中的树蛙。

美丽的自然纪录片中,一个极近特写镜头拍摄了一只五彩缤纷的树蛙在雾气弥漫的浓密丛林中攀爬树枝和树叶,拍摄时间为白天。使用35mm胶片进行远摄,并带有景深效果。

随后,Huet从视频中提取了6帧,然后把这6帧发给了GPT-4o Vision,让它描述自己看到了什么。

很快,一段内容详实的故事就被创作了出来:

在雾气弥漫的浓密森林深处,一只色彩斑斓的青蛙小心翼翼地沿着覆盖苔藓的树枝前行。它明亮的绿色身体上点缀着醒目的黑黄图案,在茂密的植被中显得格外显眼。

在这条危险的路径上,青蛙保持警觉。每一步都很慎重,粘性的脚趾牢牢抓住粗糙的树皮。树枝轻轻摇晃,显示出它精妙的平衡感。

到达树枝的边缘时,青蛙评估着前方的空隙。突然,它爆发出一股能量,跃了过去。但就在后腿推离时,脚滑了一下。短暂地悬在空中,青蛙笨拙但安全地落回树枝上。

尽管有些失误,这只坚韧的两栖动物重新站稳了脚跟,展示了野生环境中生命的顽强。它毫不气馁,准备进行下一次跳跃,坚定不移。

最后,Huet展示了voice engine的神奇功能。

他先录了一段自己的语音,然后把刚才Sora生成的树蛙视频发给voice engine,下一秒,上面那段树蛙视频的长故事,就用他的声音被读了出来!观众们掌声雷动。

然后,这段故事又被Voice Engine用法语、日语重新读了一遍(感觉翻译的淘汰又近了一步)。

在产品层面,OpenAI已经做到了如此先进的地步,如果再加上Strawberry的推理能力,OpenAI离AGI的实现,恐怕是要很近了。

腾讯宣布向3300名员工发11亿,平均每人到手34万

参考资料:

https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

https://www.youtube.com/watch?v=yJHw33cVeHo


返回网站首页

本文评论
美国芯片业的这套操作,中国能否借鉴?_美国对芯片的制约
【文/观察者网专栏作者 金钟】 1981年,一直领先世界的美国芯片厂商第一次在内存芯片市场上输给了日本企业:日本在内存芯片(64K-DRAMs)上的全球市场份额首次超过美国。到了1987...
日期:09-27
tesla 4「特斯拉神秘“42号项目”曝光,要为马斯克建豪宅?_」
7月13日消息,知情人士透露,特斯拉计划在位于美国得州特斯拉总部附近为首席执行官埃隆·马斯克(Elon Musk)打造一处有玻璃幕墙的住所。这一神秘的“42号项目”引发了特斯拉的内部...
日期:07-13
华为Mate 60 Pro第一波秒售罄!6999元抢到了吗?「华为mate60多少钱」
快科技8月29日消息,今日华为手机官方毫无征兆的宣布了Mate 60 Pro先锋计划”。新机已于今日12:08 正式上线华为商城开售,售价6999元(目前仅售12 512GB版本)。目前,华为Mate 60 Pr...
日期:08-29
云从科技发布国内首款AI原生数据分析产品DataGPT_云从科技创始人简介
2月1日 消息:今日,云从科技发布了国内首款 AI 原生数据分析产品 ——DataGPT。该产品基于云从自主研发的从容多模态大模型,采用新颖的 “对话即分析” 交互模式,改变了企业对复...
日期:02-01
浅析物联网行业发展,详解联发科布下的局_物联网行业发展现状及整体体系结构
  智能移动终端设备的发展速度远超大众想象,根据此前的调研显示,2018年全球IT终端设备(个人电脑、平板电脑和手机)的出货量约为23.26亿台,整体总量已经趋于稳定,而与此同时,新...
日期:02-11
重庆携程小贷公司股权调整:携程金融持股降至95%「携程金融旗下贷款」
11月7日消息,天眼查信息显示,近日,重庆携程小额贷款有限公司股权比例调整,携程金融科技(上海)有限公司持股比例从100%降至95%,认缴金额减至47.5亿元,新增上海携程商务有限公司持股5%...
日期:11-08
真我gt neo 6g「真我GT6上架:首发6000尼特无双直屏、苍穹通信系统」
7月1日 消息:今日,真我GT6正式在京东自营店上架,并开放预约。这款新机凭借其三大核心卖点——骁龙8Gen3处理器、全球首发的6000尼特电竞无双直屏以及苍穹通信系统。真我GT6搭...
日期:07-01
济南市警方破获特大互联网销售假药案(济南兽药造假案)
  山东省济南市警方10日通报称,一起特大互联网销售假药案近日告破,警方摧毁了3个利用互联网销售假药的犯罪团伙,先后抓获犯罪嫌疑人13名,查证销售假药案值高达1400多万元...
日期:07-24
迪士尼在中国裁员300多人 全球范围将裁员7000人_迪士尼裁员2.8万 新闻
华特迪士尼公司的第一轮裁员不仅在美国本土,还扩展到了中国地区。据《华尔街日报》报道,这家娱乐巨头已在北京解雇了300多名从事流媒体服务的员工。裁员是本周开始的成本削减...
日期:04-01
优酷回应1元会员退费续订风波:规则有明确告知_退订优酷会员自动续费
1月31日 消息:针对1元会员退费续订风波,优酷回应称:“1元会员”指的是优酷VIP月月省活动,这是优酷推出的会员优惠产品,相关页面中已对活动规则进行明确说明:首月1元,后11个月每...
日期:01-31
中国电科网通院完成中星26号卫星香港关口站天线建设
通信世界网消息(CWW)近日,中国电科网通院研制建设的中星26号卫星香港关口站Ka频段7.3米天线顺利完成验收和交付,进一步完善我国卫星宽带网络体系,带动卫星宽带应用发展。小贷公司...
日期:12-29
英伟达mariko芯片「xAI训练Grok-3大模型用了10万块英伟达H100-芯片 马斯克」
7 月 2 日消息,马斯克已经宣布其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出,将带来更先进的 AI 功能。虽然 Grok-2 还没亮相,但马斯克已经开始为其 Grok-3 进行...
日期:07-02
郭炜炜发布剑网3云游戏进度回顾 5G时代西山居云端业务布局公开_剑网三 郭炜炜
  西山居CEO,剑网3系列制作人郭炜炜于2月7日在微博发布剑网3云游戏2019年的进展,从郭炜炜微博消息来看,目前剑网3云游戏已经进入封测阶段,并已经在西山居内部完成了内部...
日期:04-03
攒钱换机了!一加/OPPO/红魔/真我等安卓厂商:骁龙8Gen 3新机来了_一加8t neo3
快科技10月25日消息,高通新一代骁龙8宣布后,小米最先行动首发这款处理器,但其他安卓厂商也都跟上。现在,一加、OPPO、vivo、真我、红魔等厂商都宣布,成为首批发布新一代骁龙8处理...
日期:10-25
中国联通5g项目「领航5G“轻装上阵” :中国联通成立业界首个5G RedCap产业联盟」
领航5G“轻装上阵” :中国联通成立业界首个5G RedCap产业联盟 谷歌pixel 6系列渲染图...
日期:05-26
拉卡拉市值会上千亿「拉卡拉前三季度营收43.55亿元 同比减少11.8%」
10月31日 消息:日前,拉卡拉发布了2022年第三季度报告,报告显示该公司前三季度营业收入为43.55亿元,同比减少11.83%。财报显示,归属于上市公司股东的净利润为4.14亿元,同比减少51....
日期:11-10
科技网站IE6数据显示 仍占据中国大陆市场34%份额
  北京时间6月14日早间消息,科技网站IE6 Countdown的数据显示,截至今年5月,全球仍有10.9%的网民仍在使用IE 6浏览器,比去年同期下滑7.2%。中国大陆的IE6使用率高达33.9%,排名...
日期:07-30
诺基亚与雅虎正式宣布互联网业务结盟_诺基亚与雅虎正式宣布互联网业务结盟是哪一年
  美国互联网巨头雅虎公司与全球第一大手机生产商诺基亚公司宣布达成一项全球战略合作协议,双方将通过此次合作来进一步延伸其在线服务同时为用户提供更完善 的服务。  ...
日期:07-29
DBRX官网体验入口 AI大型语言开源模型软件工具app免费下载地址_dbrb
DBRX是一个由Databricks的Mosaic研究团队构建的通用大型语言模型(LLM),在标准基准测试中表现优于所有现有开源模型。它采用Mixture-of-Experts (MoE)架构,使用 362 亿个参数,拥...
日期:03-28
俞敏洪辉腾「俞敏洪:可以考虑董宇辉接班 董宇辉笑而不语」
最近,新东方俞敏洪在东方甄选的直播间谈到了企业的传承问题。他说:“我儿女没有真的想过要来新东方,而且新东方是一个股份基本上都是公开的公司,所以我没有二代接班的烦恼。不...
日期:04-27