您的位置:首页 > 互联网

谷歌数学版Gemini破解奥赛难题,堪比人类数学家!_谷歌算法大赛

发布时间:2024-05-21 01:09:08  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】I/O大会上,谷歌Gemini1.5Pro一系列更新让开发者们再次沸腾。最新技术报告中,最引人注目的一点是,数学专业版1.5Pro性能碾压GPT-4Turbo、Claude3Opus,成为全球最强的数学模型。

四个月的迭代,让Gemini1.5Pro成为了全球最强的LLM(几乎)。

谷歌I/O发布会上,劈柴宣布了Gemini1.5Pro一系列升级,包括支持更长上下文200k,超过35种语言。

与此同时,新成员Gemini1.5Flash推出,设计体积更小,运行更快,还支持100k上下文。

最近,Gemini1.5Pro最新版的技术报告新鲜出炉了。

论文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

谷歌数学人才

报告显示,升级后的模型Gemini1.5Pro,在所有关键基准测试中,都取得了显著进展。

简单来说,1.5Pro的性能超越了超大杯1.0Ultra,而1.5Flash(最快的模型)性能则接近1.0Ultra。

甚至,新的Gemini1.5Pro和Gemini1.5Flash在大多数文本和视觉测试中,其性能还优于GPT-4Turbo。

Jeff Dean发文称,Gemini1.5Pro数学定制版在基准测试中,取得了破记录91.1%成绩。

而三年前的今天,SOTA仅为6.9%。

谷歌数学涂鸦

而且,数学专业版的Gemini1.5Pro在数学基准上的成绩,与人类专家的表现不相上下。

数学评测3年暴涨84.2%

对于这个数学定制版模型,团队使用了多个由数学竞赛衍生的基准测试评估Gemini的能力,包括MATH、AIME、Math Odyssey和团队内部开发的测试HidemMath、IMO-Bench等。

结果发现,在所有测试中,Gemini1.5Pro数学定制版都明显优于Claude3Opus和GPT-4Turbo,并且相比通用版本的1.5Pro有显著改进。

特别是MATH测试中取得了91.1%的突破性成绩,而且不需要使用任何定理证明库或者谷歌搜索等任何外部工具,这与人类专家的水平相当。

此外,在AIME测试集中,Gemini1.5Pro数学定制版能解决的问题数量是其他模型的4倍。

以下是两道曾让之前的模型束手无策的亚太数学奥林匹克竞赛(APMO)题。

其中,上面的这个例子很有代表性,因为它是一道证明题,而不是计算题。

对此,Gemini给出的解法不仅直切要害,而且非常漂亮。

Gemini1.5Pro核心性能全面提升

文本评估

除了数学之外,升级后的1.5Pro在推理、编码、多模态多项基准测试中,取得了显著的优势。

甚至就连主打输出速度的1.5Flash,在性能上也不输1.0Ultra。

尤其是,在MMLU通用语言理解基准测试中,Gemini1.5Pro在正常的5个样本设置中得分为85.9%,在多数投票设置中得分为91.7%,超过了GPT-4Turbo。

与2月出版技术报告对比来看,新升级1.5Pro在代码两项基准中,有了非常明显的提升,从71.9%上涨到84.1%(HumanEval),从77.7%上涨到82.6%(Natural2Code)。

在多语种基准测试中,新升级1.5Pro的能力略微下降。

此外,5月报告中,将数学和推理能力分开评测,在数学基准上,新升级1.5Pro有所下降,从91.7%下降到90.8%。

在推理测试中,MMLU上的性能从81.9%提升到85.9%。

2月版

针对函数调用,1.5Pro在多项任务中,除了多项函数,都拿下了最高分。1.5Flash在多项函数任务中,取得了领先优势。

在指令调优上,1.5Pro面对更长指令1326提示时,回应准确率最高。而406更短指令,1.0Ultra的表现更优秀。

涉及到更专业的知识问答时,1.5Pro准确率几乎与1.5Flah持平,仅差0.6%,但都显著优于1.0Pro和1.0Ultra。

针对STEM上下文问答任务中,在Qasper数据集上,Gemini1.0和1.5准确率提升,与此同时不准确率显著下降。

再来看偏好结果,针对不同提示,与1.0Pro比起来,1.5Pro和1.5Flash相对得分更高。

多模态评估

针对多模态性能,技术报告中涉及了众多基准测试,包括多模态推理、图表与文档、自然图像以及视频理解四个方面,共15个图像理解任务以及6个视频理解任务。

总体来看,除了一项测试之外,1.5Pro的表现均能超过或者与1.0Ultra相当,且轻量的1.5Flash在几乎所有测试中都超过了1.0Pro。

可以看到1.5Pro在多模态推理的4个基准测试上都有所提高。

在公认较为困难的MMMU测试中,1.5Pro实现了从47.9%到62.2%的提升,在研究生水平的Ai2D测试上甚至达到了94.4%,1.5Flash也有91.7%的高分。

对于多模态大模型,图表和文档的理解比较有挑战性,因为需要对图像信息进行准确的解析和推理。

Gemini1.5Pro在ChartQA取得了87.2%的SOTA结果。

在TAT-DQA测试上,分数从1.0Pro的9.9%升至37.8%,1.5Flash相比1.0Ultra也有将近10%的提高。

此外,团队创建了BetterQA等9个互不相交的能力测试。结果显示,相比上一代的1.0Pro,1.5Pro总体达到了20%以上的提升。

自然图像理解方面的测试,重点关注模型的对物理世界的理解以及空间推理能力。

在专门的V*测试中,1.5Pro和测试提出者所发表的模型SEAL几乎表现相当。

在人类擅长而模型不擅长的Blink测试中,1.5Pro实现了从45.1%(1.0Pro)到61.4%的提升,Flash分数相近(56.5%),依旧高于1.0Ultra(51.7%)。

除了大海捞针,团队也为Gemini1.5Pro进行了其他视频理解方面的基准测试,但提升不如前三个方面那样显著。

在VATEX英文和中文的两个测试中,对比2月份发布的Gemini1.5Pro的技术报告,三个月训练后的提升不超过2分。

Mate 40 RS保时捷设计 5G

在YouCook2测试中,1.5Pro似乎始终不能达到1.0Ultra的135.4分,而且相比2月技术报告中的134.2下降到了最新的106.5。

有趣的是,在OpenEQA的零样本测试上,1.5Flash得分63.1,甚至超过了1.5Pro的57.9。技术报告中解释,这是由于1.5Pro拒绝回答某些问题造成的。

2月版

对比GPT-4、Claude3优势明显

接下来,再看看横向对比,新升级的1.5Pro与GPT-4、Claude模型相较下的性能如何。

模型诊断能力改进

如下展示的是,在2000个MRCR任务实例中,字符串相似度累积平均得分与上下文长度的函数关系。

在与GPT-4Turbo和Claude2.1进行比较时,研究人员发现分别在8K和20K个词组之后,1.5Pro和1.5Flash的性能大大优于这两个模型。

随着上下文长度的增加,1.5Pro和1.5Flash的性能下降幅度大大缩小,最高可达100万个token。

在将小语种Kalamang翻译成英语的量化结果如下所示。

新升级的1.5Pro在喂了半本书,甚至全本书的数据之后,性能得到大幅提升,并优于GPT-4Turbo和Claude3的表现。

而在将英语翻译成Kalamang语言的量化结果中,1.5Pro的胜率也是最高的。

低资源机器翻译的长上下文扩展

再来看,在低资源机器翻译中,模型的上下文学习扩展(Scaling)表现。

随着样本数量不断增加,1.5Pro的翻译性能越来越好,大幅超越了GPT-4Turbo。

长上下文文本QA

针对长文本的问答,1.5Pro在710k上下文文中,表现显著优于GPT-4Turbo。并且,超越了没有上下文,以及在RAG加持下,支持4k上下文的1.5Pro。

长上下文音频

在音频长上下文的测试中,每个模型的单词错误率表现又如何?

可以看到,1.5Pro仅有5.5%,而OpenAI的Whisper模型的错误率高达12.5%。

但与2月版的报告相比,1.5Pro的音频长下文单词错误率还是有所下降。

2月版

长上下文视频QA

针对1个小时的视频问答任务,1.5Pro在不同基准上准确率实现与3分钟视频任务准确率,基本持平一致。

再来看去年2月版的对比,1.5Pro在1小时任务中的准确率有了很大提升,从最高0.643上涨到0.722。还有在3分钟视频QA任务中,从0.636上涨到0.727。

2月版

在1H-VideoQA测试中,团队在时长1小时的视频中每秒取1帧画面,最终线性下采样至16帧或150帧,分别输入给GPT-4V与Gemini1.5进行问答。

无论帧数多少,Gemini1.5Pro的表现均强于GPT-4V,其中在16帧测试的优势最为明显(36.5% vs.45.2%)。

在观看整个视频后进行回答时,Gemini1.5Pro从2月的64.3%提升至72.2%。

2月版

长上下文规划

推理和规划技能对解决问题都很重要,虽然LLM在推理上进展显著,但规划依旧很难。

这篇报告专门呈现了Gemini1.5的规划能力测试,涉及到移动积木、安排物流路线、室内导航、规划日程和旅行路线等任务场景。

测试中,模型必须根据给定任务,一次性地快速生成解决方案,类似于人类的头脑风暴过程。

总体上,Gemini1.5Pro在绝大多数情况下的表现优于GPT4Turbo,不仅能在少样本时较好进行规划,还能更有效地利用额外的上下文信息。

更轻量的Gemini1.5Flash表现始终不敌Gemini1.5Pro,但在几乎一半的情况下可以与GPT-4Turbo的表现相当。

GPT-4Turbo的在BlocksWorld中的零样本表现接近于零,而Gemini1.5Pro和Flash分别达到了35%和26%。

Calendar Scheduling也是如此,GPT的1-shot准确率低于10%,而1.5Pro达到33%。

随着样本数量逐渐增多,1.5Pro的表现基本持续提升,但GPT-4Turbo在样本增加到一定程度时会出现下降趋势,在Logistics中甚至持续下降。

比如Calendar Scheduling中,当样本数量逐渐增加至80-shot时,GPT-4Turbo和1.5Flash只有38%的准确率,比Gemini1.5Pro低了32%。

之后增加至400-shot时,1.5Pro达到了77%的准确率,GPT却依旧徘徊在50%左右。

非结构化多模态数据分析任务

现实世界中的大多数数据,比如图像和对话,仍然是非结构化的。

研究人员向LLM展示了一组1024张图像,目的是将图像中包含的信息提取到结构化数据表中。

图17展示了从图像中提取不同类型信息的准确性结果。

Gemini1.5Pro在所有属性提取上的准确性提高了9%(绝对值)。同时,相较于GPT-4Turbo,1.5Pro提升了27%。

然而,在评估时,Claude3API无法分析超过20张图像,因此Claude3Opus的结果被限制了。

此外,结果显示,1.5Pro在处理更多的图像时会带来持续更好的结果。这表明该模型可以有效利用额外和更长的上下文。

而对于GPT-4Turbo来说,随着提供的图像增多,其准确性反而下降

更多细节参见最新技术报告。

参考资料:

https://the-decoder.com/gemini-1-5-pro-is-now-the-most-capable-llm-on-the-market-according-to-googles-benchmarks/

谷歌数学题广告


返回网站首页

本文评论
京东和当当网的战争_京东与当当的“图书大战”愈演愈烈 出版商沉默应对
  京东与当当的“图书大战”愈演愈烈,作为出版业源头的出版商反而十分安静,声音、观点鲜见出来。一些出版社内部人士表示,“年底大家都忙着回款、账目之类的事,突然这么闹一...
日期:07-25
诺基亚安卓机怎么样_安卓系统领先 诺基亚等传统老牌影响力仍在
  iPhone5没来,来了iPhone4s。苹果公司的这招出其不意,打乱了很多人购买手机的计划。有些人捏着已经用厌的iPhone4,本来盘算着熬一熬等iPhone5上市,结果等来的是外形与四代几...
日期:07-24
一年喝掉30万吨咖啡!瑞幸库迪9.9元价格战背后:国人消费越来越冷静 星巴克遭殃
10月31日消息,今年以来,连锁咖啡品牌瑞幸库迪们除了铆足了劲开店外,还相继推出9.9元/杯或8.8元/杯的促销活动。价格战的背后,前三季注销的咖啡企业有近万家。公开数据显示,2022年...
日期:10-31
巴宝莉包可以水洗吗「巴宝莉4400元热水袋不能装沸水引热议!门店回应:销量很好」
快科技1月24日消息,今日,巴宝莉热水袋”相关话题登上微博,引起网友热议。据了解,有网友发帖吐槽,称奢侈品品牌巴宝莉售价4400元热水袋不能装热水。生鲜电商竞争格局据国内媒体报...
日期:01-25
华为5g专利费率「华为公布手机、Wi-Fi和物联网专利许可费率」
华为在2023年创新和知识产权论坛上公布了其4G和5G手机、Wi-Fi6设备和物联网产品的专利许可费率。据悉,华为设定了每台4G手机的许可费率上限为1.5美元,而5G手机的许可费率上限...
日期:07-13
马斯克已经掌管推特公司:希望其成为“最受尊敬的广告平台”「推特马斯特」
10月28日消息,据国外媒体报道,推特原CEO已经离开公司总部,马斯克已经掌管社交媒体推特公司,并已经开始规划这家社交媒体平台的未来。据悉,10月27日,马斯克在推特上做出承诺,表示在...
日期:10-29
第一线下一代InsightNet智能网络  荣获“2023年度AI网络璀璨技术奖”
通信世界网消息(CWW)(北京-2023年10月24日)由中国通信学会指导,中国通信学会信息通信网络技术委员会、江苏省未来网络创新研究院主办,SDNLAB协办的2023 AI网络创新大会于2023年10...
日期:10-24
国庆手机团购省钱不忘安全 360公布手机支付安全攻略
  逛街时,想吃麦当劳先用手机买个优惠码立省十五元;想吃大餐用手机在团购导航上逛一圈就能省下几十元,目前,方便又省钱的手机网购和团购受到众多年轻消费者的追捧。360安全专...
日期:07-23
淘金TikTok,“交个朋友”有些野心
图片来源@视觉中国文 | 电商在线,作者 | 王亚琪,编辑 | 斯问没有人不眼红Tiktok的流量,但第一批盯上“流量红利”的人,已经开始学会保持“警惕”。这种警惕来自过去一年多时间的...
日期:12-12
此前因灯光太刺眼遭投诉,马斯克的巨型发光X标志被拆除_马斯克spacex发射
8 月 1 日消息,亿万富翁埃隆・马斯克于去年 10 月以 440 亿美元收购了 Twitter,最近将其改名为“X”。上周五,该公司在其位于旧金山市中心市场街的总部大楼顶部安装了一个发光...
日期:09-18
Meta、斯坦福大学用生成式AI实现3D空间环境人机交互_斯坦福大学人工智能实验室
(映维网Nweon 2023年12月12日)斯坦福大学和Meta旗下的FAIR团队日前介绍了一种突破性的人工智能系统:仅根据文本描述就可以在虚拟人和物之间产生自然的同步运动。这个新系统名为...
日期:12-12
西数SN570蓝盘NVMe SSD发布_西数nvme固态黑盘和蓝盘的区别
  类似于机械硬盘,西数的SSD产品同样按照“颜色”进行标识,从入门到高端分别是绿盘、蓝盘、黑盘、红盘等。   日前,西数发布SN570蓝盘SSD,采用M.2 2280形态,支持NVMe,走PCIe...
日期:07-17
腾讯杀入影视剧购买大军 巨资入股开心网(影视剧融资)
  很有钱的腾讯又出手了!昨日,腾讯高调进入视频战场,宣布以“创新高天价”购买《宫锁心玉》第二部《宫锁珠帘》(下称《宫2》),有业内人士透露,其单集价格可能在185万元左右。...
日期:07-24
外媒:iPhone销量继续下滑 特别是中国市场(近两年苹果手机在国内的销量持续下滑)
  对于苹果来说,现在要解决的就是,如何提升iPhone在全球的销量,其实想要做到也不难,把价格定的更亲民一些。   现在,外媒援引自投资公司Goldman Sachs的数据称,苹果2019年年...
日期:04-01
飞腾腾珑E2000首套成熟应用!中国大唐风电自主工控系统已稳定运行5800小时!
通信世界网消息(CWW)为了响应国家高水平自立自强和数字化智能化转型的要求,中国大唐集团科学技术研究总院基于飞腾腾珑 E2000 研发风力发电机组自主控制系统 DT WindOS(E2000Q),是...
日期:05-26
仙侠游戏投放套路拆解,素材同质化困境下如何突围?
  App Growing数据洞察结合有米科技游戏投放组经典投放案例,拆解游戏投放套路。   基于2月份游戏广告买量分析数据,仙侠题材游戏是各大主要移动广告平台的重点游戏广告主...
日期:01-17
报道称:苹果因ChatGPT和生成式AI感到焦虑_生成ios什么意思
索尼公布ps5小米雷军汽车苏宁易购2021双十一有活动吗小米无线充电宝149元支持磁吸吗...
日期:10-23
爱奇艺《青春有你》收官,新一代青年励志团体UNINE正式走向市场(青春有你UNINE)
  由爱奇艺打造的中国首档青年励志综艺《青春有你》4月6日正式迎来收官。经过历时长达3个多月的系统性训练和多轮公演角逐,最终由青春制作人助力选出的李汶翰、李振宁、姚...
日期:04-26
地下城第一狂战士「DNF首个衍生单人动作RPG游戏正式定名!《第一狂战士:卡赞》官宣」
快科技12月6日消息,近日,Nexon宣布,此前公布的《地下城与勇士》IP衍生的单人动作RPG游戏正式定名为《第一狂战士:卡赞(The First Berserker: Khazan)》。该作最早于2022年的TGA首...
日期:12-06
马斯克回应特斯拉股票创最糟年度表现:不要被困扰,特斯拉将是地球最有价值公司
12月29日 消息:由于市场需求疲弱、行业竞争激烈、特斯拉CEO马斯克收购推特引发的争议性举动以及投资者的担忧,特斯拉股票2022年度表现有史以来最糟糕,跌幅高达69%,甚至超过了纳...
日期:12-29