您的位置:首页 > 互联网

16年老程序员当场“退休”,OpenAI o1这么强吗?_程序员退休工资一般多少

发布时间:2024-09-14 10:45:22  来源:互联网     背景:

声明:本文来自于微信公众号 AI新榜,作者:阿虎 月山橘,授权转载发布。

谁能想到,o1刚出来工作,就被吐槽“懒惰”。

9月13日,OpenAI创始成员、AI大牛Andrej Karpathy发文吐槽OpenAI刚发布的最新模型:“o1-mini一直拒绝为我解决黎曼猜想,模型懒惰还是主要问题,很悲伤。”

9月13日凌晨,OpenAI突然发布了一款o1-preview模型,这也是之前被大肆宣扬的“Strawberry(草莓)”模型。据介绍,该模型能够推理复杂任务,解决科学、编程、数学等领域更难的问题。

与此同时,另一款更小、更高效、成本更低的版本o1mini也同步上线。

除了o1-mini,OpenAI今天还发布了另一款新模型:o1-preview。也就是这段时间吊足了胃口的“Strawberry(草莓)”模型。据介绍,该模型能够推理复杂任务,解决科学、编程、数学等领域更难的问题。

相较而言,o1mini则是更小、更高效、成本更低的版本。

在性能上,o1系列模型主要通过强化学习的方式训练,幻觉频率上低于GPT-4o,数学能力提升了6倍,代码能力提升了8倍。

在一系列高难度基准测试中,o1都展现出了超强实力,甚至能在物理、生物等领域问答环节中,超过人类博士水平。

模型一经上线,OpenAI CEO Sam Altman在X上发文称,Jimmy们,耐心等待时刻结束了。

目前,o1-preview已面向ChatGPT Plus、Team用户开放,企业用户将在下周获得访问权限。o1mini计划向所有免费用户开放。

今天被同行们夸爆了的o1,是否真的能带来GPT-4o刚面世时的惊艳感受?我们也来上手试试,另外也看看围绕o1,海内外玩家们都在玩些什么和聊些什么。

新的AI模型天花板,复杂推理是舒适区

有意思的是,新模型被OpenAI视为AI能力的重大进步,因此被命名为o1,表示“将计数器重置为1”,而不是GPT系列的延续。基于此,也有一些玩家开始担心:GPT-5恐怕是没戏了。

据“AI新榜”观察,无论是从OpenAI官方发布的Blog、Demo还是网友实测来看,复杂推理简直是o1的舒适区,在编程能力、数学计算上几乎碾压其他模型。

现在,ChatGPT Plus和Team用户可以在对话时手动选择o1-preview和o1-mini模型。

值得一提的是,o1-preview每周的消息限制为30条,o1-mini的周上限为50条。

在复杂逻辑推理方面,OpenAI让GPT-4o和o1同时参加了国际数学奥林匹克竞赛资格选拔的AIME考试。结果显示,GPT-4o仅能正确解答13%的问题,而o1的准确率则高达83%,是4o的近8倍。

在官方Demo中,o1在面对下面这个难题时,只思考了约30秒的时间,就给出了正确的答案。

当公主的年龄是王子的两倍,而公主的年龄是他们现在年龄的一半时,公主的年龄将与王子一样大。王子和公主的年龄是多少?请提供该问题的所有答案。

更关键的是,o1还会通过“我很好奇”、“我正在思考”和“好的,让我看看”等语句,给人一种它正在一步一步思考的过程,很像人类做题时的推理步骤。

国内的程序员多大年龄退休

我们也丢了个复杂的逻辑问题给o1:

在一个小村庄里,只有两种职业的居民:种田的农民和捕鱼的渔民。村子里有一个很奇怪的规定:农民总是说谎,而渔民总是讲真话。有一天,三个村民A、B和C在谈话,A说:‘B是农民。’ B说:‘A和C职业相同。’ C说:‘我们都是农民。’ 根据村子的规定,” 问题:“请问A、B、C各自是做什么的?

华硕鼠标pair是什么意思

同样是用了约30s的时间,o1就给出了滴水不漏的分析和正确答案。

有网友跟o1玩24点游戏,发现它可以十分稳定准确地求解。相比之下,GPT-4o则表现得一塌糊涂。

24点游戏是把4张扑克牌牌面的数字通过加减乘除(包括括号)进行四则运算,使计算结果等于24的一个棋牌数学休闲益智小游戏。

你甚至可以让它帮忙出考研高数题,从而实现举一反三,触类旁通:

图源即刻“希汉同学”

不过,虽然o1数学计算和逻辑推理能力很强,却偶尔会在一些相对简单的问题上栽跟头。

比如这道“平方数在7和17间的最小整数是多少?”就没能给出正确答案。

再来看看它的编程能力。

一位有着16年全栈经验的程序员,在试过用o1写代码后,直接宣告自己的编程生涯结束了。

只见他的电脑屏幕上,o1正在快速生成一个全栈原生应用程序的代码。

程序员退休了怎么办

在OpenAI发布的视频演示里,演示者先是让o1写一个贪吃蛇网页游戏,这种小case可能不算什么,紧接着演示者提升难度,让它在网格中添加障碍物,并且使障碍物连成“AI”的形状,照样没能难倒它。

还有网友将o1和前不久爆火的编程神器Cursor结合,在10分钟内创建了一个iOS天气应用程序。

而在此之前,Claude Sonnet3.5通常被很多人当作Cursor的强力搭档。

还是那道经典的“单词Strawberry里有几个r”,这个简单的问题曾难倒包括GPT-4o在内的不少大模型,但在o1面前已然成了小儿科。

不过,o1的发挥看起来不是那么稳定,也有数错的情况。

o1很强,但纯文本模型还吸引人吗?

在各家卷多模态模型的时候,OpenAI既没有兑付自己的语音功能,更是将Sora早早抛在脑后了。眼下,还发了一款纯文本模型。

相信上述的实测和玩法,已经为大家解答了“OpenAI o1模型究竟强在哪”这个问题。

o1模型不需要额外提示,它就能自行推理和反思自己的解答过程,将复杂问题一步步拆解开来,清晰地展示了自己思考的过程。

比如,o1在写代码前会梳理一遍问题,列出相关知识点和步骤,然后开始逐行写代码,并完成代码测试。

有网友调侃,OpenAI o1来了,Claude3.5、Cursor等以编程能力见长的热门AI工具可以放一边了。

Jimmy Apples发文表示,OpenAI故事第二章Straberry Fields终于开启。

英伟达首席研究员Jim Fan认为,o1的意义在于,AI团队不再只是通过增加模型规模来提升模型表现,而是通过优化推理过程。

全网的科技大佬们面对新模型,都是兴奋难抑的状态,但对于我们普通人的日常使用来说,o1的作用其实不是特别明显。

科技博主“特工宇宙”提到,客观来讲,o1的科研价值远大于当下的使用价值。我们也许会更受益于OpenAI o1开发的新软件、新药物,而不是o1本身。

可以说,o1的意义更像是展现AI变强的可能性,但对于大多数用户来说,o1的更新仅仅是在底层模型上进行优化迭代,实际好用好玩的AI工具会更吸引人。

所以,也架不住大多数网友在评论区在线开催Sam Altman:“我们什么时候能得到新的语音功能??”

另外,目前的o1系列模型还只是预览版本,像GPT-4o拥有的长文本、网络插件、生成图片等功能,均未集成到o1中。

在定价上,o1也并不是经济适用的选择。对于开发者而言,o1-preview 的定价为15美元/百万输入token,60美元/百万输出token,远高于GPT-4o(5美元/百万输入token,15美元/百万输出token)的定价。

总的来说,GPT-4o依旧是OpenAI能力最强的模型。也有博主在X上提到:“普通人根本不理解大象的推理和逻辑能力。GPT-5还要比o1模型更强大69倍。”

这也让人好奇,即将到来的OpenAI开发者日会带来怎样的更新,迟迟未来的“GPT-5”是否还会制造惊喜?


返回网站首页

本文评论
华为余承东最新的新闻「余承东透露华为第四界为尊界余承东剧透华为新机9月发布」
来源:中关村在线推特付费订阅中关村在线消息:近日,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东为享界S9首批上海车主交付新车,现场互动中有车主询问余承东何时...
日期:08-20
三星降噪无线耳机怎么样「寒假必备降噪耳机 三星Galaxy Buds FE一月热销中」
度过了紧张的复习季与考试季,寒假应约而来。在未来一个多月的假期里,虽没有了学业的压力,但也不意味着可以信马由缰,玩得不亦乐乎。相反,寒假正是我们对自身知识体系查漏补缺,让成...
日期:01-13
Google+用户数量突破5000万威胁Facebook(谷歌用户多少亿)
  9月27日晚间消息,持续追踪Google+用户数量的族谱网站Ancestry.com创始人保罗·艾伦(Paul Allen)周一称,Google+用户数量已于上周日突破5000万大关。   艾伦称:“自上周...
日期:07-23
景区人流如织!网友:五一假期才第2天就已经玩累了「景区人流控制方案」
4月30日消息,五一假期进入第二天,全国各地不少景区人流如织,很多热门景点门票已售罄。不少网友表示,五一假期才第2天已经玩累了。可以说,今年五一”旅游市场达到了客流高峰。同程...
日期:05-01
微软向美国政府机构开放GPT-4大模型,含国防部、NASA等_微软gpx
IT之家 6 月 8 日消息,微软公司周三在一篇博客中宣布,该公司正在使用其 Azure 云服务把 OpenAI 的强大的语言生成模型引入美国政府构,这些模型包括 OpenAI 最新、最先进的大型...
日期:06-08
20岁小伙吸入防晒喷雾变白肺 医生提醒:喷洒时遮住口鼻「防晒喷雾吸入呼吸道怎么办」
8月7日消息,据三湘都市报,长沙一位20岁年轻男性患者因误吸防晒喷雾导致白肺”,出现胸闷、咳嗽等症状。全球十大公司市值据了解,白肺一般是指重症肺炎在X线或CT检查下的表现,患者...
日期:08-07
阿里研发效能_阿里云云效助力企业10倍研发效能提升
  2021年1月15日,《揭秘阿里云云效如何助力企业10倍研发提效》活动在云端举行。阿里云云效资深技术专家何勉发布云原生时代的研发新范式——ALPD及《阿里云云效助力企业10...
日期:09-10
复爱合缘总裁庄海:不以结婚为目的的恋爱正在增加 婚恋网站也要求变
文 | 张俊     古老的婚恋行业正在迎来新的变化。   8月5日,独家报道了复爱合缘新一轮高管任命,原飞猪副总裁、民宿业务总经理庄海,被任命为复爱合缘总裁兼婚恋事业群总...
日期:08-16
微软云服务增长_疫情红利消退,微软业绩不及预期,最赚钱的云业务增速放缓
查看最新行情   记者/李京亚   微软似乎不再是美股科技股中的定海神针。   受汇率波动、云计算业务业绩下滑、电子游戏销售下降的影响,微软的盈利...
日期:07-31
新年跳槽:从深圳返回长沙,在新一线城市乘风翻盘_深圳回长沙发展后悔了
  最近关于换城市还是换公司工作生活的讨论,又成为职场话题焦点。   提出该话题的程序员Base深圳,年前收到Offer,准备年后入职新公司。新公司是上市公司,薪资比现在高...
日期:07-16
央企楷模团队再出发:北京联通为两会新闻中心提供全面通信服务
通信世界网消息(CWW)2月29日,北京联通为两会新闻中心提供的通信保障准备工作已全部就绪,开始为中外媒体提供全面通信服务。李一男还是小牛电动车的股东吗?特斯拉AI DAY背后真相...
日期:03-04
残雪诺贝尔奖提名作品「中国作家残雪成诺贝尔文学奖热门 网友:希望残雪能获奖」
9月23日消息,据媒体报道,2023年度诺贝尔文学奖的评选结果将于北京时间2023年10月5日公布,中国作家残雪成诺贝尔文学奖热门。有网友表示:希望残雪获得诺贝尔文学奖。据悉,今年残雪...
日期:09-24
支持5G双卡 华为新机上架开售_华为新机5G
近期华为重新上架了一款新的智能手机,该机支持5G,并且这款手机已经陆续上架各大平台,新机有着6.6英寸高刷大屏,4000万超感光夜拍,续航方面也有40W快充。这款手机的起步存储配置为...
日期:11-16
五月天 演唱会「五月天经纪公司回应演唱会假唱:是真唱,稍后在公众号发声明」
12月3日,五月天乐队因多次被指在演唱会中假唱,引起热议。B站UP主“麦田农夫”发布视频指出,在上海和伦敦演唱会中,部分歌曲存在假唱或真假混唱情况。相关话题登上微博热搜,掀起轩...
日期:12-04
“2022年全球500强品牌 ”公布_2021年世界500强品牌
  (原标题:“2021 年全球 500 强品牌 ”公布:苹果时隔 5 年再次成为全球最有价值品牌)   1月28日消息 评估权威机构 Brand Finance 每年都会发布 “全球 500 强品牌”,今...
日期:07-10
黄仁勋福布斯「黄仁勋身家首次突破1000亿美元 位列全球富豪榜第 15 位」
5月30日 消息:英伟达公司的创始人兼CEO黄仁勋近日迎来了职业生涯的又一里程碑——他的个人资产净值首次突破1000亿美元,位列全球富豪榜第15位。这一突破不仅彰显了黄仁勋在科...
日期:05-30
饿了么蓝骑士送上楼吗「饿了么升级蓝骑士保障体系 提供奖学金免费上大学」
7月14日 消息:饿了么宣布蓝骑士保障再升级,推出四大举措:蓝骑士免费上大学、“百城百万”骑士驿站建设、蓝骑士基金升级、重奖“社区侠”,更好支持骑手工作、生活和发展。1、...
日期:07-14
新纪录!特斯拉Autopilot行车安全达到人类平均的11.4倍_特斯拉安全测试视频
快科技5月25日消息,特斯拉2024第一季度安全报告重磅出炉!比多少米少20%是20米iphone12pro不是全屏数据脱敏规范开启Autopilot自动辅助驾驶功能的特斯拉车辆单次平均安全行驶里...
日期:05-26
暴雪打折季2021魔兽争霸「网友期盼魔兽国服年内重开 暴雪总裁:争取回归 尽一切可能」
快科技7月17日消息,魔兽世界等7款暴雪游戏的国服停了已经175天了,马上就满半年时间了,何时回归成为很多玩家的心病,暴雪最近都没啥表态,总裁日前在直播中总算做了回应。magic2智...
日期:07-17
任天堂、雅达利、索尼, 曾经的之争, 如何影响区块链游戏?
那么,游戏是怎么从一个简单的娱乐实现了如此华丽的转身呢?这几年中,区块链游戏在里面又能有什么出色的表现呢?...以上这些差异,直接导致任天堂失去了包括Capcom、Konami和Squar...
日期:08-01