您的位置:首页 > 互联网

200美元的ChatGPT Pro正式上线,聪明N倍的新模型草莓要来了。

发布时间:2024-09-11 12:09:19  来源:互联网     背景:

声明:本文来自于微信公众号 数字生命卡兹克,作者:数字生命卡兹克,授权转载发布。

半夜10点,The Information发了个新闻,透露了OpenAI的新模型,草莓,要来了。

两个小时后,我的好朋友@solitude(美东时间),作为一个常年拥有第一手资料和信息的人,跟我说,ChatGPT Pro会员上线了,售价200刀/月,他已经第一时间付完款了。

我看了眼我自己的号,果然啥也没有。

所以,他甚至刚付完款,还没开始用,我就把这个尊贵的Pro号要来了。

现在,ChatGPT的会员,被分成了3档,分别是Plus、Team、Pro。

这个分法,怎么感觉OpenAI学的库克,不会后面还有ChatGPT Pro Max吧。。。

但是目前非常可惜(冤大头)的点是,并没有新的功能,也没有新的模型,唯一有区别的是,GPT4o使用次数基本等于无限,我在短时间内测了几百条,依旧畅通无阻。

而对应的,ChatGPT Plus会员,GPT4o的使用额度是80条/3小时。

一个使用无限制,自然配不上这贵10倍的价格,从20刀/月提升到200刀/月,OpenAI如果真的这么干,那基本等于奥特曼被马斯克给夺舍了。

结合The Information的新闻,基本可以确认的是,这个ChatGPT Pro会员,是过一段时间,为全新的模型,草莓(Strawberry)准备的。

后面想用草莓的,先开个200刀的Pro会员再说。

草莓究竟是啥?目前没有确切的结论,但是从我知道的消息梳理来看的话,这玩意,草莓可能是:

基于新范式Self-play RL所做的,在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。

更智能、更慢、更贵。

我尽量用最简单朴素的语言,让大家都听得懂,解释一下,这个新的草莓,具体是个啥,以及,凭啥卖200刀/月。

首先,得说一下GPT-5出现的一些问题。

GPT-5,就我所知,训练的非常不顺利。

一个可以观察到的点是,以数据规模和模型规模为美的“大力出奇迹”的方式,边际收益开始递减,也不再是百试百灵了。

大语言模型的Scaling Law描述的是模型性能L、模型参数量大小N、训练数据大小D以及计算量C之间的关系。

随着计算量、模型参数和数据集大小的增加,模型的性能通常会显著提高,从而在语言理解和生成等任务上表现更好。

但是现在,计算量、参数大小、数据集大小,都遭遇了瓶颈,特别是闭源模型们,进步速度对比过去,齐刷刷的开始放缓,且开源模型跟闭源模型的能力逐渐开始缩小。

也就是说,再靠大力出奇迹,模型的能力已经快上不去了。

因为本质上,所有的大模型训练,几乎都是人类已有知识的极致利用,我们给出数据、给出人类反馈数据或者标注数据等等,你会发现,大模型不是通过自我探索去“发现”语言的规律,而是直接从我们给出的内容中提取有用的信息。

这就像是一个学生,一开始通过不断地背书确实能提高成绩,但到了一定程度后,已经没啥书可以背了了,而且成绩也到了上限,再怎么死记硬背也很难有大的进步了,这也是如今的困境。

一个是,现有的知识的量级,已经不够了。

另一个点是,所有的知识都是拿现成的直接背出来的,不是自己从0开始探索的,所以大模型在这个过程中,学到的全是相关性,而不是因果性。

相关性和因果性这两个词解释起来非常简单。

相关性:如果你发现每次你带伞,天都会下雨,这就是相关性。伞和下雨看起来是相关的,但实际上带伞并不会导致下雨。

因果性:下雨了你才带伞,这是因果性,因为下雨导致了你带伞。

所以这就是为啥,你让他做个复杂推理,要写明推理过程,中途推理逻辑经常乱七八糟,错的没边,就是这个原因。

它们就像是一个百科全书式的学霸,知道很多事实,但可能并不真正理解这些事实背后的原理以及真正的因果关系。

如果你问一个只会死记硬背的学生:"为什么苹果会落到地上?"他可能会立刻回答:"因为有重力。"

但如果你继续追问:"那重力是什么?为什么会有重力?"他可能就无法给出深入的解释了。

现在的大模型跟这个现象没啥区别。它们可以告诉你地球是圆的,但可能也没办法真正解释为什么地球是圆的,或者地球的形状对我们的生活有什么影响。

它们学到的是"地球"和"圆"这两个词经常一起出现,有强相关性,而不是理解地球为什么会是圆的这种因果关系。

相关性告诉你两件事总是一起发生,因果性则告诉你为什么它们会一起发生。

所以,这也是为什么,我们需要新方法新范式,来破这个局。

天象手游APP

而这个解法,是目前我观察下来,OpenAI、Google、Anthropic、Ilya等人的共识:

Self-play RL。

全称是自我对弈强化学习,听起来很复杂,但其实可以用一个简单的比喻来理解:一个孩子学习下围棋。

现在大模型的学习方式是什么样的?看棋谱,记住开局布置,背诵一些固定的战术。它们学习了大量的数据,知道很多可能的解法,但可能并不真正理解为什么要这样下棋。

而Self-play RL,它则是让这个孩子不停地和自己下棋。刚开始可能下得很拉跨,但是通过不断尝试不同的走法,观察每步棋的结果,慢慢地,他会发现哪些策略更有效,哪些走法会输。

这个过程中,孩子不仅仅是在记住棋谱,而是在真正理解棋局的变化,理解每一步棋为什么要这样走。

这就是从相关性学习到因果性学习的飞跃。

有没有感觉,这个描述很熟悉?

这就是2017年名动天下的AlphaGo Zero。

当年,AlphaGo在乌镇以3:0击碎柯洁道心,轰动世界。

而AlphaGo Zero,是AlphaGo的进阶版。

官方是这么描述AlphaGo Zero的:

“刚开始时,AlphaGo Zero很菜,还会填真眼自杀。

3小时后,AlphaGo Zero成功入门围棋。

三星book pro加ssd固态硬盘

36小时后,AlphaGo Zero就摸索出所有基本而且重要的围棋知识,以100:0的战绩,碾压了当年击败李世乭的AlphaGo v18版本。

21天后,AlphaGo Zero达到了Master的水平,这也就是年初在网上60连胜横扫围棋界的版本,Master后来击败了柯洁。

40天后,AlphaGo Zero对战Master的胜率达到90%,也就是说,AlphaGo Zero成为寂寞无敌的最强围棋AI。”

这就是Self-play RL的恐怖威力。

Self-play RL就是让AI不断地和自己"对弈",可能是下棋,也可能是解决数学问题,甚至是进行对话。

在这个过程中,AI不仅仅是在重复它看到过的内容,而是在主动探索、尝试和学习。

跟大模型的学习方式,形成了鲜明的对比,大模型是把“死记硬背”发挥到了极致,而Self-play RL则是把“自我成长”发挥到了极致。

数据还是那个数据,只不过一个是人给的,一个是自己造的。

用人给的东西来死记硬背,你永远成为不了超越人的超级AI,但是自己造自己学习的,那是有很大的可能的。

围棋、Dota2,这两个领域,已经证明了这一点。

而大模型+Self-play RL,就是不断的大模型自己跟自己博弈,得到反馈之后,优化模型权重,改一下自己的水平,然后接着战。

且得益于大模型自身的能力,所以在自我博弈过程中,可以不再是只给出最终结果反馈,这种奖励反馈,在提升AI推理能力上其实也有很大的局限。

因为不同于围棋、Dota2这种特定任务,大模型的能力实在是太太太泛化了。我们需要更多的因果关系,而不仅仅只是结果。

对于大模型而言,就可以使用“思维链”,把AI推理过程中每一步的思考过程都记下来。然后对每一步进行评分,让AI知道每个推理步骤的好坏。这种方法让AI不仅仅学习到如何给出正确答案,还能改进整个推理过程,从而知道,真正的因果。

甚至,不仅仅只是打分,得益于大模型的能力,还可以进行文字评价。这就很像你在做作业时,老师不仅给你打分,还会写下评语告诉你哪里做得好,哪里需要改进,你肯定只比知道一个得分结果来的更牛逼对吧。

而且每一次的学习,都是从推理过程中得到宝贵的反馈。

当模型在回答一个复杂问题时,它就会进行一个类似Self-play的过程。模型会生成多个可能的思路,然后评估这些思路的质量,选择最佳的一个。

在海外独角兽的文章中,曾经做过一个计算,一个百亿参数的大模型,如果用Self-play的方式去生产思路,如果每次生产32个思路,每个思路里都有5个步骤,一次推理回答,总任务消耗是100K token,将近6美元。

又贵、又慢,但是真的智能。

最好的数据会被保存下来,以固定周期对模型进行迭代,以持续进化。

这也是为啥,在草莓的曝光中,说:

“Strawberry 与其他模型的最大区别在于它能够在响应之前思考,⽽不是立即回答查询,这个思考阶段通常持续10到20秒。”

且,我们在文章的一开始,看到ChatGPT Pro会员,是200美元一个月了吧。

推理成本,太特么高了。

这就是典型的,在大力出奇迹的方式边际效应递减的情况下,用推理成本,换训练成本,继续给模型做迭代。

这也是为什么,OpenAI一直说,草莓,是给下一代大模型,合成数据用的,因为,它就是Self-play RL的载体。

所以回头看,草莓,可能是什么。

是基于新范式Self-play RL所做的,在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。

更智能、更慢、更贵。

还有最后一个问题是,为啥草莓在数学能力和代码能力上会强到爆炸?

这个答案就非常简单了。

因为...数学和代码,是非常好验证的,在Self-play里,可以给出明确的结果的,数学就不说了,代码,你能不能跑起来不就能验证了,对吧。

所以,这两玩意,一定是最先一飞冲天的。

Claude3.5的代码能力为啥这么牛逼,就是用Self-play RL做的。

想起前几天,去跟一个做AI投资非常专业且牛逼的朋友聊,她前段时间刚从硅谷回来,见了OpenAI的人。

OpenAI内部的研究员,是这么形容Self-play RL的:

“我们通往AGI的路上,已经没有任何阻碍。”

在沉寂了近一年之后,我们,可能要迎来一个全新的大模型技术爆发周期了。

真的。

我,拭目以待。


返回网站首页

本文评论
三防手机电池最大容量「待机可达52天!内置10000mAh电池三防智能手机发布」
近日,Oukitel官网推出了其最新款的三防手机——Oukitel WP22,该手机不仅拥有防尘防水等级为IP68和IP69K的特性,还内置了高达10000mAh的电池,官方称其最长待机时间可以达到52天。...
日期:03-08
B站两款自研游戏将上线 CEO陈睿:能挣钱的游戏只剩下两种_b站研发游戏
3月2日,B站公布了截至2022年12月31日的第四季度和全年未经审计的财务报告。财报显示,2022财年B站总营收同比增长13%,达219亿元人民币,游戏业务营收达50亿元,其中自研游戏营收近10...
日期:03-03
中国电信海洋宽带收费「中国电信VoWiFi为海洋公共服务保驾护航」
通信世界网消息(CWW)2024年5月13日,为响应惠州市海洋综合执法支队的需求,中国电信研究院、广东省公司、中国电信广东机动通信局、惠州分公司联合小米、OPPO、荣耀、vivo等多家终...
日期:05-17
宝马工厂“机器狗”SpOTTO 上岗 可“嗅探”过热故障和压缩空气泄漏_宝马机器人多少钱一辆
5月28日 消息:最近,宝马在英国哈姆斯霍尔工厂引入了一种名为 SpOTTO 的机器人,其职责是帮助发动机生产线顺利运转。自从70多年前雷·布拉德伯里在其经典作品《华氏451度》中描...
日期:05-28
USB4生态里程碑!威锋新款芯片通过USB-IF认证_威锋技术组
USB Power Delivery控制芯片领导厂商威锋电子在近日宣布,VL832 USB4芯片的荣获USB开发者论坛(USB-IF)的USB4产品认证,并列入USB-IF整合厂商名单,编号TID: 10033。VL832芯片支持的...
日期:01-02
凤凰吕宁思简历「前行者|凤凰网CFO吕靖称媒体引入AIGC是大势所趋」
凤凰网科技讯 2月13日消息 2月10日,凤凰网CFO吕靖在《前行者》直播中谈到ChatGPT对媒体行业的影响,他表示,从互联网媒体从业者的角度来看,ChatGPT提供了一种内容创作的新方式。...
日期:02-15
周迅公司申请“好多人”商标 网络热梗源自2015年红毯采访
近日,东申未来(北京)文化有限公司在多个国际分类上申请注册了“好多人”商标,包括教育娱乐、珠宝钟表和日化用品等,当前商标状态为等待实质审查。这家公司是由知名演员陈坤和周迅...
日期:01-12
牵手巴萨天才球星,云麦科技迎来首位全球代言人
  近日,智能运动健康企业云麦科技宣布,巴萨队天才足球新星安苏法蒂,成为旗下筋膜枪系列首位全球代言人。消息一出,便引发不少关注。云麦科技为何选择与这位足球天才新星进行...
日期:03-28
安卓机皇来了!三星Galaxy S23 Ultra渲染图出炉
今日消息,海外社交平台曝光了三星Galaxy S23 Ultra渲染图,这将是今年安卓阵营的机皇产品。iphone se4.7英寸和Galaxy S23+相比,Galaxy S23 Ultra采用微曲OLED屏方案,而且分辨率...
日期:01-14
中国半导体产能将在五年内增长-40% TechInsights
6 月 18 日消息,据 TechInsights 的预测,中国的半导体行业预计未来五年产能将增长 40%。这种激增是由快速的设备采购和对半导体制造设施(fabs)的战略投资推动的。根据IT之家先前...
日期:06-18
rtx 3070涨价「有厂商扛不住了:RTX 3080出现史低价!比二手都划算」
随着以太坊完成合并导致挖矿收益锐减,加之RTX 40系显卡发布等因素刺激,市场存量显卡的价格正越来越低。有用户注意到,北美一电商正促销盈通RTX 3080 10GB显卡。虽然标价779美元...
日期:09-28
小米创新高-新势力销量最新周榜发布,理想1.28万辆第一_小米各类产品销量排名
【】7月30日消息,刚刚,理想汽车发布了2024年第30周(7.22-7.28)新势力销量榜单。理想以1.28万辆的成绩连续14周获中国市场新势力品牌销量第一。问界排名第二,销量1.05万辆,也是与理...
日期:07-30
京东11.11超级爆款清单福利来袭 实用不踩坑的程序员装备好物别错过
数字化时代,程序员们是编织数字世界的魔法师,让许多存在于想象中的东西变成现实。当10 月 24 日这一属于程序员的日子,遇上现货开卖的京东11.11,京东特别为程序员们准备了至高 2...
日期:10-24
数据资产化面临的三个最大困难「数据资源的资产化及资本化研究」
通信世界网消息(CWW)2020年3月,《关于构建更加完善的要素市场化配置体制机制的意见》将数据定义为继土地、劳动力、资本、技术之后的第五大生产要素。2023年8月,《企业数据资源...
日期:04-02
三星9388「三星9388手机报价及图片」
是一款由韩国三星公司推出的智能手机产品。该手机于2012年8月发布,是三星Galaxy S系列的一款新品。定位为中高端智能手机,具备强大的硬件配置和智能化的操作系统,是一款实用性...
日期:05-30
6nm国产5G处理器加持!深圳厂商推开源鸿蒙手机:1299元
10月11日消息,对于华为来说,开源的鸿蒙系统被更多厂商使用并推出硬件,这是最愿意看到的,毕竟整个生态可以更好的发展。现在,深圳有厂商推出了一款搭载了鸿蒙系统的手机,其主要是为...
日期:10-11
科幻变现实!马斯克脑机公司将进行人体试验:瘫痪者可率先尝试
快科技9月21日消息,马斯克的脑机接口初创公司Neuralink周二宣布,该公司已获得一个独立审查委员会的批准,将进行首次人体试验,对瘫痪患者的大脑植入设备。Neuralink表示,这项研究...
日期:09-21
国产AI掀起“百模大战”,突围ChatGPT还要多久?
var cid = "1522412".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.spli...
日期:05-08
京东百亿补贴以旧换新靠谱吗加码以旧换新补贴未来三年撬动千亿新品销售 2024年京东3C数码整合30亿元
来源:中关村在线商务部将2024年定为“消费促进年”,进一步稳定和扩大传统消费。其中,以旧换新被频繁提及,作为一种更低碳、更经济的消费方式,以旧换新在刺激消费需求、提振消费信...
日期:03-14
元旦假期国内机票均价709元 元旦国内机票预订量增超一倍_元旦的机票会涨价吗
你计划在元旦假期出门玩吗?据民航出行服务平台航旅纵横的数据显示,元旦假期期间,国内航线计划执行航班量约3. 8 万班次,而国际及地区航线计划执行航班量则超过 5800 班次。截至...
日期:12-29