您的位置:首页 > 互联网

硅谷 斯坦福大学「谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5」

发布时间:2024-01-02 14:58:06  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。

Gemini的推理能力,真的比GPT-4弱吗?

此前,谷歌憋出的重磅复仇神器Gemini Pro,被发现在常识推理任务中落后于OpenAI的GPT模型。

之后又有CMU发布的论文和实验,证明Gemini Pro的很多能力都略微落后于GPT-3.5Turbo。

不过最近,斯坦福和Meta的学者为Gemini洗清了这一冤屈。

他们发现,这种基于有限数据集(HellaSWAG)的评估,并不能完全捕捉到Gemini真正的常识推理潜力。

论文地址:https://arxiv.org/abs/2312.17661

而在新测试集中,Gemini的推理能力比之前强很多!

Gemini的真正潜力

斯坦福和Meta的研究人员表示,以前的基于有限数据集的评估,对于Gemini不够公平。

这次,研究人员设计了需要跨模态整合常识知识的任务,以对Gemini在复杂推理任务中的表现进行彻底的评估。

研究人员对12个常识推理数据集进行了全面分析,从一般任务到特定领域的任务。

在其中的4个LLM实验和2个MLLM实验中,研究者证明了Gemini具有目前相当强的常识推理能力。

研究者对于当前流行的四大模型——Llama2-70b、Gemini Pro、GPT-3.5Turbo和GPT-4Turbo进行了评估,

他们发现,总体而言,Gemini Pro的性能和GPT-3.5Pro相当,准确性上落后于GPT-4Turbo。

实验

数据集

实验中采用了12个与不同类型的常识推理相关的数据集,包括11个基于语言的数据集和一个多模态数据集。

基于语言的数据集包括三大类常识推理问题:

1.一般推理和情境推理:CommonsenseQA,侧重于一般常识知识;Cosmos QA,强调语境理解叙事;αNLI,引入演绎推理,包括推断最合理的解释;HellaSWAG,以上下文事件序列的推理为中心。

2.专业推理和知识推理:TRAM,测试关于时间的推理;NumerSense,侧重于数值理解;PIQA,评估物理相互作用知识;QASC,处理与科学相关的推理;RiddleSense,通过谜语挑战创造性思维。

3.社会和道德推理:Social IQa,测试对社会互动的理解;ETHICS,评估道德和伦理推理。

对于多模态数据集(视觉和语言),这里选择VCR,一个用于认知水平视觉理解的大规模数据集。

对于包含多个任务的TRAM和ETHICS等数据集,研究人员提取了实验的常识推理部分。

为什么苹果实体店卖得比官网便宜

实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。

模型

采用最流行的四个大模型:开源的Llama-2-70b-chat和闭源的Gemini Pro、GPT-3.5Turbo、GPT-4Turbo。

每个模型都使用相应的API密钥进行访问:通过Google Vertex AI访问Gemini,通过OpenAI API访问GPT,通过DeepInfra访问Llama2。

对于多模态数据集,实验中考虑了GPT-4V(API中的gpt-4-vision-preview)和 Gemini Pro Vision(API中的gemini-pro-vision)。

考虑到API成本和速率的限制,研究人员从每个基于语言的数据集的验证集中随机选择了200个示例,从VCR数据集的验证集中随机选择了50个示例。

对于所有评估,在模型响应生成期间采用贪婪解码(即温度=0)。

提示

在评估基于语言的数据集时,研究人员采用了两种提示设置:零样本标准提示(SP),旨在衡量模型在语言环境中的固有常识能力,以及少样本思维链(CoT)提示,用于观察模型性能的潜在增强。

对于多模态数据集,利用零样本标准提示,来评估MLLM的端到端视觉常识推理能力。

结果

整体的性能比较结果如下表所示:

从模型的角度来看,GPT-4Turbo的平均表现最好。在零样本学习中,它比第二名的Gemini Pro高出7.3%,在少样本学习中优势更大(9.0%)。

而Gemini Pro的平均准确率略高于 GPT-3.5Turbo(0-shot,SP下高1.3%,k-shot,CoT下高1.5%)。

关于提示方法,CoT提高了所有数据集的性能,在 CommonsenseQA、TRAM和Social IQa等数据集中有明显的收益。

下表是在多模态VCR数据集上的性能比较:

VCR的三个子任务分别为:Q → A,根据视觉上下文生成问题的答案;QA→R,要求模型为给定的答案提供基本原理;Q → AR,既要回答问题,又要用适当的理由来证明回答的合理性。

将11个基于语言的数据集分为三组,在图1中展示了每组中每种设置的性能。

研究结果表明,GPT-4Turbo在所有类别的性能方面始终领先。

Gemini Pro和GPT-3.5Turbo的性能相当;不过,Gemini Pro在三个类别中的两个类别中,略胜于GPT-3.5Turbo。

总体而言,所有模型在处理社会和道德推理数据集方面,都表现出强大的能力。

然而,它们在一般推理和语境推理任务上的表现,存在显著差异。

斯坦福孕育了硅谷

硅谷和斯坦福的关系

这也表明,它们对更广泛的常识原则,及其在不同背景下的应用理解,存在潜在差距。

而在专业和知识推理类别,特别是在时间和基于谜语的挑战领域,模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上,都表现出了缺陷。

关于多模态数据集,图2详细介绍了GPT-4V和GeminiPro Vision在不同问题类型上的性能比较。

我们可以看到,在最后一个关于时间类别的问题上,GeminiPro Vision实现了反超。

MLLM的推理正当性

为了评估MLLM的推理能力,尤其是不仅提供正确答案,还能就常识问题提供合理且基于上下文推理的能力,研究者采用了系统抽样方法。

对于评估四个LLM的11个基于语言的数据集,研究者随机选择了30个回答正确的问题,和30个回答错误的问题。

如果数据集提供的错误答案少于30个,研究者就会包含进所有可用的错误答案,以确保分析的全面性。

选择这些问题后,他们会让每个模型解释:问题答案背后的基本原理是什么? 然后手动检查模型提供的推理过程,并根据其逻辑合理性和与问题的相关性被判为True或False。

图3显示,GPT-4Turbo在正确和错误的答案上,都显示出先进的推理机制,即使最终答案不准确,它也有保持逻辑连贯的能力。

另外,Gemini Pro也表现出了值得称赞的推理能力,提供了全面的常识推理方法。

下图展示了Gemini Pro和GPT-3.5的两个真实示例,展现了正确答案和正确理由,以及错误答案和错误理由的情况。

示例问题来自QASC数据集,红色粗体为正确答案。在上图中,Gemini Pro表现出有条不紊的推理,仔细考虑所有选项以得出最合乎逻辑的结论。

相反,由于GPT-3.5Turbo对非常规逻辑的倾向,导致了富有想象力但不正确的答案。

这表明不同模型应对常识推理任务的不同策略,有自己的独特能力和局限性。

Gemini Pro的常识推理能力

一般常识(CommonsenseQA)

在使用CommonsenseQA数据集的一般常识评估中,有这样一道示例问题:当你是陌生人时,人们会怎样?

A.火车 B.奇怪 C.人类 D.愚蠢 E.危险

Gemini Pro选择了B。

它的推理过程也值得注意:它认识到,虽然所有选项都和陌生人的概念相关,但只有奇怪准确概括了问题的中立和开放性本质。

这个选择,凸显出了Gemini Pro解释和应用一般常识知识的能力。

时间(TRAM)

TRAM数据集的时间常识评估中的示例问题:他还承诺会来找他。

他需要多长时间才能来到他身边?

A.100年 B.一分钟内 C.几个小时

由于缺乏足够的背景信息,特别是关于所涉及的身份和来到的含义,Gemini Pro无法提供明确的答案。

这说明了,模型需要依赖特定的上下文信息,来做出准确的时间判断。

在现实世界的信息传播中,模糊或不完整的信息,也会造成这种局限性。

社交(Social IQa)

在使用Social IQa数据集评估GeminiPro在社会常识推理方面的表现时,出现了一个有趣的场景: 人们一直欺负在Sasha,Sasha报复了回去,接下来人们会做什么?

微软产品布局

A.按Sasha说的去做 B.报仇 C.逃离Sasha

正确答案是C,但Gemini Pro的选择却显得很有洞察力。

硅谷和斯坦福的关系

它选择了B,理由是Sasha的行动很可能点燃了人们复仇的欲望。

这一回应表明,Gemini Pro对于社会动态和情感动机有了细致入微的理解。

Visual(VCR)

在VCR数据集中,研究者分析了Gemini Pro Vision对涉及人身安全和潜在危险场景的响应。

如果此时4号推了3号,会发生什么?

Gemini Pro Vision回答:3号会掉下悬崖,危及生命。

蔚来es六会降价吗

这个结果表明,Gemini Pro Vision已经能够做出视觉常识推理,分析视觉场景并预测这些场景中动作的潜在后果。

这表明模型已经掌握了空间关系和物理后果,具备了类似人类认知的复杂视觉信息能力。


返回网站首页

本文评论
辽宁海域龙吸水「小伙厦门旅游遇海上龙吸水奇观:以前没见过 有点害怕」
7月28日消息,福建厦门的余先生骑行旅游时,在一家酒店入住偶遇神奇的龙吸水现象。余先生表示,下午4点多时拍到的,大概持续了10分钟左右,以前从没有见过,当时觉得有点害怕,觉得酒店没...
日期:07-28
梦洁2021高端战略焕新起航,连续12年高端床上用品全国销量领先(梦洁家居床)
  近日,“聚心聚力 共创梦洁”高端战略发布会在长沙举行。   中国家用纺织品行业协会会长杨兆华、广检集团广纺院副院长黄永钦及技术总监罗胜利、君智战略咨询合伙人...
日期:06-08
天猫双11招聘季活动正式启动  发布超60万电商岗位「双十一招聘」
10月21日 消息:“天猫双11招聘季”活动今日正式启动。阿里巴巴联合第三方招聘平台“1号职场”,上线超60万电商就业岗位。岚图汽车销售量据悉,这些岗位来自天猫、淘宝、1688、...
日期:10-27
千辆传祺M8入列 一嗨租车与广汽传祺携手带来高品质自驾体验_一嗨租车传祺gs4
(原标题:千辆传祺M8入列 一嗨租车与广汽传祺携手带来高品质自驾体验) 8月10日,一嗨租车与广汽传祺的“千台车辆签约仪式暨首批...
日期:08-11
品牌引领 载誉前行|“中国品牌500强”通鼎集团榜上有名_通鼎互联500强排名
通信世界网消息(CWW)7月15日,由专业品牌评价机构Asiabrand发起主办,中国亚洲经济发展协会、环球时报社和中国经济新闻联播网等机构联合主办的“2023品牌强国论坛暨中国品牌500强...
日期:07-20
NVIDIA与软银公司合作,利用Grace Hopper超级芯片建设面向生成式AI和5G/6G的软银下一代数据中心
2023/5/29 21:48 NVIDIA与软银公司合作,利用Grace Hopper超级芯片建设面向生成式AI和5G/6G的软银下一代数据中心   基于Arm架构的超级芯片和BlueField-3 DPU带来革命性...
日期:05-30
千万别选6.4W FSD!特斯拉硬件根本不值钱「特斯拉fsd硬件升级」
中关村在线消息:10月11日,据相关爆料,特斯拉的FSD选装费用为6.4万元,选装FSD后不仅会有更好的硬件支持,还会匹配更好的软件系统。但是,即便大家花了更高的钱选择了这项功能,仅是体...
日期:10-24
谷歌甲骨文将参加安卓专利诉讼和解会_谷歌胜诉甲骨文
  9月13日消息,甲骨文公司CEO拉里·埃利森和谷歌CEO拉里·佩奇准备应法院要求进行面谈,试图了结与谷歌Android手机软件相关诉讼案。   美国一位联邦法官周五发布命令,要求...
日期:07-22
奥迪Q3逆行司机还竖中指挑衅被查 道歉视频曝光:不要争一时之气
明目张胆逆行、压双实线、闪远光灯,司机竟然还降下窗户伸出中指挑衅,近日发生的一起事件引起了网友强烈关注。据网传视频,在某路段由于修路占据了车道造成排队通行,一台粤K牌照...
日期:07-06
理想汽车推出新款「理想汽车史上最强更新!OTA 5.0将于12月19日开启推送」
快科技12月11日消息,我们从理想汽车官方获悉,理想L系列车型OTA5.0预计将于12月19日正式开启推送。据悉,此次OTA升级主要分为三个方面,分别是智能驾驶、智能空间和智能增程。智能...
日期:12-11
显卡挖矿崩盘「矿卡崩盘 二手卡泛滥 NVIDIA终于承认挖矿代价」
NVIDIA今天发布了2023财年Q3财季(截至10月30日)的报告,营收为59.3亿美元,同比下滑17%,环比下降了12%。GeForce游戏业务依然是重灾区,营收15.7亿美元,同比下滑51%,环比下滑23%。美版i...
日期:11-19
3d扫描建模「3D扫描效率剧增!NVIDIA新AI模型可将视频生成高精模型」
快科技6月2日消息,近日,NVIDIA宣布将推出一款名为Neuralangelo的AI模型,它能够直接将视频内容,转为高精度的3D模型。sensor tower app在内部演示中,NVIDIA展示了Neuralangelo模型...
日期:06-03
中国联通研究院联合山东联通打造政企精品网自智服务能力,率先通过CCSA TC610云光专线自智网络服务体验解决方案4A+分级测评
通信世界网消息(CWW)2023年12月,中国联合网络通信有限公司研究院、中国联合网络通信有限公司山东省分公司率先完成了由中国信息通信研究院(以下简称“中国信通院”)联合CCSA TC61...
日期:12-20
苹果秋季发布会9月13日举行 iPhone15系列升级幅度引关注_苹果9月15日举行新品发布会
苹果公司在8月30日清晨发出了秋季发布会的邀请函,宣布将于9月13日凌晨1点(北京时间),举行一场以“好奇心上头”为主题的特别活动。匀思电商运营平台face id怎么戴口罩解锁(图源:苹...
日期:08-30
奇虎360十大股东_奇虎360起诉前高管傅盛违责:1元回购其所获股份
  9月30日上午消息,据香港媒体报道,奇虎360昨日在香港高院起诉公司前高管傅盛(微博),称傅盛及他创办的北京可牛科技利用奇虎机密资料,开发电脑安全软件“可牛免费杀毒”,该软...
日期:07-23
墨迹天气 免费雪碧_酷热持续,福利继续!墨迹天气“35度计划”免费雪碧送不停
(原标题:酷热持续,福利继续!墨迹天气“35度计划”免费雪碧送不停) 虽已立秋,全国大部分地区高温高湿天气仍在持续,多地最高气温已...
日期:08-19
YouTube计划推出流媒体视频在线商店服务(youtube视频流量)
8月15日消息,据报道,近日,Alphabet旗下YouTube正计划推出其流媒体视频在线商店服务。   知情人士称,YouTube已重新与娱乐公司就参与该平台进行谈判,这一平台在YouTube被称为“...
日期:08-17
运营23年,昔日“国内第一大电商网站”宣布关停!曾与淘宝“同台竞技”
近日,昔日电商龙头易趣网发布了关闭公告。   上海盈实信息技术有限公司公告称,由于公司调整运营策略,决定停止易趣网络平台运营,关闭易趣网站。2022年8月12日24:00前,易趣网将...
日期:08-02
研究发现人们更偏爱人类创作的艺术而非AI生成作品
本文概要:1. 实验表明人们更喜欢人类创作的艺术。扩展安全更新esu2. 人们更倾向于欣赏对于具有强烈叙事性的由算法生成的图像。神画投影仪q1臻品3. 人们更欣赏他们认为付出...
日期:08-15
魅族21/21 Pro现身IMEI数据库 共5个型号_魅族所查 sn 与 imei 不匹配
魅族21/21 Pro手机现身IMEI数据库,共5个型号 据报道,魅族21/21 Pro手机已经现身IMEI数据库,共有5个不同型号。其中,魅族21的标准版型号为M461Q,这个型号已经在工信部认证通过。另...
日期:10-04