您的位置:首页 > 互联网

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4_.gp4

发布时间:2024-05-20 11:19:45  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼失望,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一,而且有很多发布会从未提及的惊艳功能。

OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。

别家发布会都在画饼,OpanAI却总能开出一种欲扬先抑的效果,惊喜全在发布会之后。

基准测试结果

苹果X有屏幕指纹吗

首先,在LMSys聊天机器人竞技场上的ELO分数排行上,GPT-4o套了一个GPT2聊天机器人的马甲,以一骑绝尘的态势名列第一,评分为1310,和第二名GPT-4-turbo的1253分相比,呈现断档式的提升。

再来看多模态领域的基准Reka Vibe-Eval,这也是一个很有挑战性的测试,由269个超高质量图像文本对组成,用于评估多模态语言模型的性能。

在Reka Vibe-Eval 分数的排行榜上,GPT-4o再次荣登第一,相比谷歌新发布的Gemini Pro1.5高出了将近三个百分点。

而且GPT-4o克服了这个测试集上大模型常见的逆缩放问题,也就是在某些案例中表现不如小模型的问题。

不止如此,GPT-4o的内存突破也值得关注。

针里寻针(Needle in a Needlestack,NIAN)是最近非常流行的开源基准测试,用于评估大模型关注上下文内容的能力。

大语言模型的进展导致曾经流行的基准测试大海捞针已经过时,在此基础上,更具挑战性的针里寻针测试诞生了。

https://github.com/llmonpy/needle-in-a-needlestack

测试中,针里寻针会从一个大型打油诗数据库中挑出几首,将其放在prompt中的特定位置,之后再询问关于这些打油诗的问题,由此可以很好地考察LLM的上下文记忆能力。

每个测试使用5-10个打油诗,放置在prompt中的5-10个位置,重复2-10次。

曾经,GPT-4Turbo和Claude-3Sonnet都在针里寻针测试中表现得非常惨烈,侧面证明了这个任务对LLM的难度和挑战性。

广受欢迎的Mistral模型虽然表现得稍好一点,但正确率基本不超过60%。

相比之前的模型,GPT-4o取得了飞跃性的突破,正确率每个token位置上都不低于80%,一度接近100%,表现近乎完美!

GPT-4o的能力被严重低估了

小米汽车量产时间

新推出的轻量级GPT-4o模型,虽然有速率限制,但重点是——免费!

语音交互绝对是模型的亮点,但它的功能远不止于此!

OpenAI表示这是他们第一个真正的多模态模型,通过单一的神经网络完成所有任务。

网友表示不知道这是否是真的还是有些夸大,但GPT-4o在所有领域的能力都超过了市场上的其他任何产品。

有网友发现,作为原生多模态模型,GPT-4o的文生图效果非常惊艳,甚至超过DALLE和MidJourney

而且,在生成图片上的文字时,效果更是远远好过DALL-E3。

DALL-E3在图像上生成超过5个单词后就会崩溃,而GPT-4o不仅做到文字的连续性,还能在之前生成图像的基础上进行迭代。

这种迭代是非常重要的,也标志着模型能力的巨大飞跃。虽然生成出来的文字还是非常生硬,甚至有明显错误,但是迭代能力可以使GPT-4o后续逐渐减少文字和图像方面的错误。

除了生成文字,GPT-4o还能你为生成独立的角色形象,然后进行对话互动。

神奇的是,他们把对话界面隐藏在一个悬停图标下!这意味着你可以对它进行任意动作、风格和场景的设计!而且GPT-4o在风格表现方面做得非常出色。

平面图片不够炫酷?GPT-4o能够对图片进行3D重建。

GPT-4o还是一个强大的PS工具,OpenAI的logo被轻松嵌入到了杯垫上,但仔细看的话,你会注意到这两张图片不是同一个杯垫。

模型没有在原图片基础上进行修补,而是从头生成,因此看起来像原始的、未经过PS的图片。

Reddit上一位网友分析认为,OpenAI的Sam Altman等主创团队可能是太喜欢《Her》这部电影了,他们对GPT-4o的语音互动设计很明显受电影的启发(Altman也暗示了这一点),而且发布会的展示也借鉴了电影的手法——

让模型自己展示其惊人的能力,而不是像苹果或者谷歌那样列出原始数据和技术细节。

这样做非常有艺术感,吊足了围观群众好奇心,但也很容易让人低估模型的能力。

GPT-4o的能力如此强大,也引发了对模型架构的猜测和热烈讨论,网友们的观点也呈现出两个方向。

一派认为,模型架构应该基本与GPT-4类似。

而另一方的观点似乎更占上风,认为底层架构绝对有重大变动,目标是对齐GPT-4的文字能力,并在推理和多模态方面相比GPT-4有更多提升。

gpt46

白热化的开源与闭源之争

虽然搭载GPT-4o的ChatGPT聊天界面及其API已经免费开放给用户使用,但OpenAI依旧坚持了不开源的传统,这次甚至连一篇技术报告都没有。

但这并不影响GPT-4o在LLM角斗场中掀起风云。Liquid AI的资深科学家Maxime Labonne这样描述:LLM 争夺战愈演愈烈,GPT-4o 遥遥领先

这场竞争中值得关注的另一个角度,则是大语言模型的开源和闭源之战。GPT-4o能力的快速增长导致闭源和开源之间的差距再次被拉大。

更重要的是,闭源阵容中并非GPT-4o一枝独秀。综合迄今为止发布的所有LLM,闭源模型的总体表现始终比开源模型更加优秀,而且GPT、Claude、Gemini等系列的闭源模型始终走在最前沿。

vivos5开售时间

红色代表闭源模型,绿色代表开源模型,蓝色区域表示二者之间的差距

曾经,大公司将Linux、安卓等项目开源的动力是希望借助所有开发者的力量,得到不同角度的反馈和更新意见,从而进行快速的迭代优化,并且构建了在世界范围内有广泛影响力的大规模社区,反哺其他的产品线。

但对于LLM来说,情况就不一样了。

想要不断提升大语言模型的能力,算力成本是更大的挑战。根据斯坦福大学发布的2024年人工智能指数报告,训练GPT-4的计算成本约为7800万美元,Gemini Ultra则是一亿九千一百万美元左右。

原文链接:https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

面对这种级别的投入,去中心化的开源社区对比有巨额投资的科技公司,显然没有优势。企业要想扩大模型产品的影响力,只需像OpenAI一样,免费开放API给用户使用即可。

目前这种开源和闭源模型差距越来越大的趋势,Jim Fan曾在去年6月就做出过类似的预测。

但是,LLM的开闭源之争,不仅是企业的商业决策,更关乎AI行业整体的发展。

首先是安全性问题。最近刚从OpenAI离职的首席科学家Ilya Sutskever本人就对此十分关注,他曾在2016的一封电邮中写道:随着我们越来越接近构建人工智能,开始变的不那么开放是有意义的。

可以想象一下,如果像GPT-4o这样能力强大的模型公布了代码和模型权重,任何开发者都可以在此基础上微调,以满足自己定义的任何功能,AI的力量可能会迅速失控。

像 GPT 这样的研究如果落入坏人之手,也可能会进化并导致灾难。

但另一方面,这些只开放API但不开源的大语言模型对初创公司并不友好。他们没办法根据特定的需求和场景、使用私有数据对模型进行微调,开发出有独创性的、功能灵活多样的产品,只能开始套壳。

导致的结果就是,AI初创公司并没有像我们想象的那样蓬勃发展,我们也没有看到更多的渗透到工作和生活各方各面的AI产品。

正像Jim Fan推文中提到的,开源LLM总是有更大的多样性。

这似乎是一个两难问题。

随着大模型之战愈演愈烈,相信对于开源和闭源的激烈讨论依旧会持续下去。


返回网站首页

本文评论
华为bg组织架构「华为公司BG副总裁:未来五至十年,物联网将创造万亿美金级市场」
“未来十年是物联网发展的黄金时期,这个过程中,所有的设备、所有的终端和所有的传感器都将基于IoT来实现物联网的全感知化和数字化。”10月21日,华为公司BG副总裁、国家宽带移...
日期:10-22
英伟达、英特尔、AMD等芯片巨头集体萎靡,PC销售热潮已退_AMD面临艰难新季度,与英特尔英伟达的竞争不断加剧
苹果incell屏幕   过去近两年,当疫情期间人们被隔离在家时,PC出货量出现爆发式增长。而现在,这样的增长终于消失。   当地时间8月8日,存储芯片公司美光警告称,PC需求表现疲软...
日期:08-16
小米晋升两位高管:许斐、张剑慧升任集团副总裁_小米集团高管团队
5月8日 消息:今日,小米集团创始人、董事长雷军通过官方渠道宣布了两项重要人事任命,标志着小米在管理层上的新变化和新气象。许斐和张剑慧两位资深员工被正式晋升为集团副总裁...
日期:05-08
降价管用!特斯拉得中国得天下「进口特斯拉降价」
“价格真的很重要”。北京时间1月26日凌晨,特斯拉CEO马斯克在2022年第四季度财报电话会上大发感慨。因为降价举措不仅正在帮助特斯拉赢回订单,还切切实实推高了特斯拉的股价。...
日期:01-26
360不顾工信部新规捆绑浏览器 网友抗议被欺骗_360绑架了IE浏览器
近日有网友爆料,在工信部《互联网信息服务管理规定》即将正式实施前夜,360突然密集向用户以误导的方式强制捆绑360浏览器,并导致网友电脑无法上网引发群体性抗议。在遭到某媒...
日期:07-22
容联云创始团队「容联云发布“容犀智能”,推出生成式应用容犀Copilot」
12月19日消息,容联云正式发布基于自研赤兔大模型的全新产品品牌“容犀智能”及生成式应用“容犀Copilot”。全新的容犀智能品牌将包含容犀AICC、容犀Desk、诸葛IO/CDP/CEP、...
日期:12-19
iQOO12突然官宣,11月7号正式发布,骁龙8Gen3+120W闪充_iqoo12+3
新旗舰手机小米14的登场吸引了众多消费者,因为它首发搭载了骁龙8Gen3旗舰处理器,性能处于目前手机行业顶级水准,尽管售价3999元起不算便宜,但仍然有不少消费者第一时间就入手了,...
日期:10-30
SpaceX 首个全平民太空任务定于 9 月 15 日发射升空_spacex将于9月份送4名平民上太空
  9 月 4 日消息,SpaceX 的首个全平民载人航天任务灵感 4 号 (Inspiration4) 已经于当地时间周四完成飞行准备审查,将于 9 月 15 日从美国国家航空航天局(NASA)位于佛罗里...
日期:02-01
上任第一把火!马斯克完成收购推特 开除多名高管「马斯克新推特」
10月28日 消息:27日,特斯拉CEO马斯克正式收购了社交媒体公司Twitter,收购金额为440亿美元。入主推特后,马斯克做的第一件事就是开除多名高管,冻结并检查所有代码。目前,马斯克已...
日期:10-28
内脏脂肪越来越高「研究发现内脏脂肪越多大脑越小:每增加270克认知衰老0.7年」
快科技1月7日消息,据报道,科学研究发现,同样年龄的人,腹部脂肪(皮下和内脏)更多,脑部图像显示出更小的脑容量。美国华盛顿大学等10个科研机构,纳入了10001名参与者,经过全身核磁、计...
日期:01-07
拼多多为啥不在国内上市「外媒:拼多多搁置赴港上市计划」
12月29日消息,科技媒体The Information周三援引知情人士的话报道称,包括拼多多和满帮在内的多家在美上市中国科技公司已搁置或取消有关在香港上市的谈判。在这份报告发布之前,...
日期:12-29
ikikj「IKI AI官网体验入口 人工智能个人助手知识管理软件使用地址」
IKI AI是一个智能知识界面,结合了图书馆和知识助手的功能,专为帮助专业人士和团队更高效地进行研究、推理和创意生成。IKI支持自定义提示,可根据不同的职业需求提供个性化服务...
日期:04-08
三星官方确认Galaxy Note 10+:将拥有256 GB和512 GB两种存储方案_三星note10+存储规格
  7月29日消息 目前三星已开始了Galaxy Note 10智能手机的预购活动,不过关于Galaxy Note 10 +似乎很少提及,目前也仅仅是泄露了FCC示意图及模型机。不过近有有消息称三星官...
日期:01-06
奈雪宣布成为乐乐茶大股东:投资5.25亿元 持有43.64%股权
凤凰网科技讯 12月5日消息,12月5日,奈雪的茶控股有限公司(简称:奈雪的茶)发布公告称,已签署对乐乐茶主体公司上海茶田餐饮管理有限公司(简称:乐乐茶)的投资协议。公告显示,奈雪的茶此...
日期:12-08
小米12s Ultra降价1000 入手只要4999了_小米11 Ultra降价
小米13将在明晚发布,而目前并不会发布小米13 Ultra,所以高端旗舰仍然是小米12s Ultra,现在12s Ultra的新款旗舰入手只要4999元,影像旗舰正式降到4000多元。2018年充电桩数量小米...
日期:12-01
vivo推出“手语翻译官”应用:准确率可达80%以上_手语翻译手机
今天,vivo召开国际爱耳日特别活动,正式发布了针对听障人士开发的手语翻译官”应用。amd apu rdna2该应用能够通过文字转语音的方式,帮助听障人士与健听人群(即听力正常人群)之间...
日期:03-03
去哪儿CEO陈刚发布新年信:春节全员放假10天,2023年更多机会在海外市场
12月30日消息,去哪儿CEO陈刚发布新年信,宣布去哪儿全员春节提前放假3天,给大家一个10天长假,能更多的陪伴家人朋友。在陈刚看来,行业正在恢复,旅游作为最后一项线下体验,将长期重要...
日期:12-30
2020北京独角兽企业发展报告「北京独角兽企业可获最高亿元支持 主要涵盖10项具体措施」
为了进一步加强本市独角兽企业的培养和服务,北京市科委、中关村管委会官网近日发布了《关于进一步培养和服务独角兽企业的若干措施(征求意见稿)》(以下简称《若干措施》),向社会...
日期:07-13
小红书流量大的靠什么赚钱「力推搜索和付费流量,小红书电商下一步往哪走?」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。2024年,小红书电商会是行业的新机会吗?可以肯定的是,小红书电商的增长表现十分亮眼。据新播场统计,近30...
日期:01-06
苹果或在2025年砍掉iPad mini产品线 可折叠iPad取而代之
12月9日消息:据The Elec报道,苹果计划在2025年砍掉屏幕尺寸小于10英寸的 iPad Mini 产品线,并转而推出可折叠 iPad 产品线。2024年,苹果会先推出首款 OLED iPad。特斯拉刹车问...
日期:12-10