您的位置:首页 > 互联网

谷歌waymo 2021「谷歌祭出多模态“杀器” Gemini真能碾压GPT-4吗?」

发布时间:2023-12-11 22:35:05  来源:互联网     背景:

声明:本文来自于微信公众号 元宇宙日爆(ID:MBNews),作者:木沐,授权转载发布。

“最大”、最有能力”、“最佳”、“最高效”,谷歌为其12月7日新发布的多模态大模型Gemini冠上了好几个“最”,与OpenAI GPT-4“比高高”的胜负欲呼之欲出。

区分为Ultra、Pro、Nano三个尺寸的Gemini,不仅号称在各种“AI考试”中得了“高分”,演示视频里显示的Gemini简直就是“听说读写”样样拿的“超级工具”。

按照官方说法,Gemini Ultra最为强大,兼具多模态能力、专业性与准确度,能以图文、语音的形式输入输出不说,具体还能批改数学作业,指导运动员的动作与发力,还能够执行复杂的绘制图表、编码等任务,在MMLU(大规模多任务语言理解)测试里甚至“超越了人类专家”。

不过,目前能供C端普通用户体验的是Gemini Pro版,按官方定位是“在各种任务上扩展的最佳模型”,已集成至谷歌此前发布的对话机器人Bard中;“在设备上执行任务的最高效模型”Gemini Nano将置入谷歌智能手机Pixel8Pro;而“最大且最有能力,适用于高度复杂任务”的Gemini Ultra,谷歌的计划是在明年年初开放给开发者和企业用户。

那么,Gemini真的比GPT-4强吗?

有网友发现,谷歌给出的Gemini Ultra“考试成绩”用的是自家的“试卷”(测试方法);而彭博社指出,Gemini的演示视频非实时,网友们也觉得该视频有剪辑痕迹。

《元宇宙日爆》实测了Bard的数学能力,该对话机器人已植入了精调的Gemini Pro模型,结果显示,Bard对复杂的数学题仍有理解错误,尤其是识图方面。

谷歌展示Gemini“听说读写”能力

Gemini是谷歌从头构建的多模态人工智能大模型。尽管在时间上落后GPT-4许多,但被谷歌以“能力最强”对外推出,“强”的一面是Gemini的多模态能力。

它能够同时处理和解析文本、图像、音频、视频以及代码等多种数据类型,也就是说,用户可以将各种形式的信息输入给Gemini,它不仅能理解,还能分析甚至按你的需求处理任务。

目前,Gemini还在1.0版,按规模不同分为Ultra、Pro和Nano。Ultra版本是适用于高度复杂的任务,而Pro版本则专注于多任务处理,Nano版本则针对移动设备上的应用。三种版本有针对性地适用于多个不同场景,且在多项基准测试中展现出超群实力。

谷歌官方放出的宣传视频展示了Gemini超强的多模态能力,相信看完后你会惊呼。

“超级模型”Gemini Ultra的背后有谷歌发布的测试数据支撑。在32个广泛用于测评大型语言模型(LLM)的学术基准中,它在30个上性能超过了大模型领域当前的技术水平。

Gemini Ultra号称以90.0%的得分成为第一个在MMLU(大规模多任务语言理解)上“胜过人类专家的模型”,该测试使用数学、物理、历史、法律、医学和伦理学等57个学科的组合来测试世界知识和解决问题的能力。Gemini在包括文本和编码在内的一系列基准测试中超越了目前的技术水平。

MMLU是一种针对大模型的语言理解能力的测评,包含了57个关于人类知识的多选题回答任务,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平的人类知识,是目前主流的的大模型语义理解测评之一。

从谷歌给出的测试结果来看,Gemini在理解复杂数据和执行高级任务方面将对GPT-4构成强有力的竞争。

谷歌称Gemini在MMLU测评中首次超越人类专家

由于从一开始构建就基于多模态训练,Gemini Ultra理论上对文字、图片、语音、视频、代码等各种形态的信息都能理解,这就给AI应用和使用场景带来了更多可能性。

谷歌mini diva

例如在教育领域,借助Gemini Ultra的多模态推理技能,凌乱的手写笔记能被理解,学生解题时出错的步骤能被发现,然后给出题目的正确解答和过程。这一套下来,不能说要淘汰教师吧,至少老师们也得到了一个高能AI助手。

Gemini可以批改学生作业

在视频的理解与推理上,Gemini Ultra甚至展现出“足球教练”的素养,能分析运动员的动作与发力,还会给出具体的改进建议。

Gemini可理解视频内容并给运动员提供指导建议

对于复杂的图像理解、代码生成、指令跟踪,Gemini Ultra也不在话下。输入图像与提示次“我希望你采用左上角子图中描绘的函数,将其乘以1000,然后将其添加到左下子图中描绘的函数中,生成matplotlib代码单个结果图”后,Gemini Ultra能够完美的执行逆图形任务来推断生成绘图的代码、执行额外的数学转换并生成相关代码。

从谷歌给出的这些案例看,GeminiUltra简直是“地表最强”的大模型,观众朋友们最想知道的是,这个大模型界的“超级赛亚人”,咱啥时候能用上?

按照谷歌的披露,从12月6号开始,Bard就会上载Gemini Pro的精细调整版本,用于更高级的推理、规划、理解等,这是Bard自推出以来的最大升级。

需要注意的是,集成了Gemini Pro的Bard只提供英语支持,可在全球170多个国家和地区使用,计划在不久的将来扩展到不同的模态,支持新的语言和地区。也就是说,中文用户目前还无法完美体验Gemini Pro。

2019年11月11日24时,天猫双11

Gemini Nano最先在谷歌的Pixel8Pro智能手机上应用,从WhatsApp开始,明年将支持更多的消息应用。

在未来几个月中,Gemini还将在更多的产品和服务中推出,包括Search、Ads、Chrome和Duet AI。也就是说,谷歌的搜索引擎中也将输入Gemini能力。

至于“最强”的GeminiUltra,普通用户还得等等。谷歌说,它正在进行信任和安全性检查,在推出前还得通过对人类反馈的微调和强化学习(RLHF)的进一步改进。

在这个过程中,GeminiUltra会有选择地给客户、开发人员、合作伙伴以及安全和责任专家拿来早期实验,等待反馈,然后在明年初向开发人员和企业客户开放。

Ultra的MMLU“试卷”疑为谷歌版

展示的是最强的GeminiUltra,但推出和使用要缓一缓,谷歌这样的操作很快就惹来了怀疑,真比GPT-4强吗?

彭博社就出来“打脸”说,谷歌的模型和OpenAI相比还仍有差距,现在这能力也仅凭演示,而视频演示还是录制的,又不实时,很可能是“精心调整的文本提示与静态图像”。彭博社还指出,Gemini的回答需要其他信息的辅助,在真正的交互中需要暗示性很强的提示。

围观演示视频的网友们也觉得,视频中有很明显的剪辑痕迹,“强大的能力存在水分”。

而谷歌给Gemini Ultra考试的MMLU测评,被网友指出用的是自家出的“试卷”。在57个科目的多选题测试中,得了90分的Ultra,底下分明标着“CoT@32*”,这是谷歌自己调试的测评方案。如果采用和GPT-4同样的标准,它的得分只有83.7,还不如得分86.4的GPT-4。

Gemini Ultra在谷歌调整的测试方案中得分90

学术上的事情太专业,好在谷歌已经把Gemini植入了Bard,尽管用的是Utral的低配版Pro,但也号称能多任务处理,这是普通大众最能直接测试Gemini的方式了。

《元宇宙日爆》直接选用了数学题,因为ChatGPT对数学就不太精通,而有唯一正确性的数学被OpenAI视作通往AGI的基础,咱来看看被输入Gemini能力的Bard是否擅长数学。

我们统一用英文进行提问,题1为求算圆锥体积,题2为稍难的几何证明题。

测试结果表明,Gemini Pro能够准确识别图像以及图片内的文字,也能够正确解决简单数学问题,但在处理复杂数学题时,仍然存在明显错误。题2中的错误就很明显,Bard在第2步将EG与AB两条线错误地证明为相互垂直。

有Gemin Pro能力的Bard做数学题还不完美

这难道是因为Bard用的是Gemini Pro而显得不够强大?那咱只能等Ultra加入再测试了。

而会引入智能手机Pixel8Pro的Gemini Nano,将应用在“记录器摘要”和“Gboard智能回复”两项功能中。

按谷歌说法,即使手机不连网,记录器也可以获得手机对话录音、采访、演示等内容的摘要;而智能回复功能类似挂断电话后的自动回复,Gemini Nano可以识别来信的内容,生成对应的回复。不过,这两项功能,目前也只支持英文文本的识别。

按照DeepMind曾提出的AGI评估框架,在AGI-1阶段,人工智能将能够跨领域和跨模态地进行学习和推理,在多个领域和任务上表现出智能,如问答、摘要、翻译、对话等,实现与人类和其他AI进行基本的沟通和协作,感知和表达简单的情感和价值。

综合Google官方发布与实际测试体验来看,值得期待并有希望超越GPT-4模型的仍是尚未公开发布的Ultra版本,如果这个版本的多模态能力真能如演示般表现,那么谷歌距离它定义的AGI也就不远了。

贾跃亭汽车ff91什么时候上市

谷歌gms


返回网站首页

本文评论
马斯克胜诉后发推文:买了一本叫《如何诈骗》的书
凤凰网科技讯 北京时间2月5日消息 马斯克发推文称:“在几个月前订购了一本叫做《如何诈骗》的书,但还没到,开始觉得这可能是...不过现在我相信它很快就会到了。”ios14充电异常...
日期:02-05
大连移动5g覆盖范围「向海而生,大连移动携手华为打造海域5G创新极致体验」
通信世界网消息(CWW)近日,大连移动携手华为在旅顺老铁山区域建设海域5G网络创新示范站,融合700M 8T8R超视距联合多天线、Meta AAU大容量超远覆盖、2.6G+700M SUL协同覆盖等创新...
日期:06-26
科幻电影《太空冬眠》首张海报公布 《流浪地球》同编剧_关于太空休眠的电影
快科技10月22日消息,在第81届世界科幻大会影视特效峰会上,科幻电影《太空冬眠》首张海报公布。海报显示,《太空冬眠》导演为孙浩,编剧是严冬旭(2019年参与编剧电影《流浪地球》)。...
日期:10-22
淘宝扶持垂类、冷启动主播 “双11”直播大战将怎么打?
  来源:北京商报  “双11”还未到,直播间已燃起火药味。9月26日,阿里宣布2022天猫“双11”商家报名正式启动。在直播层面,淘宝直播和淘宝逛逛将同时为商家、达人提供流量激...
日期:09-27
祁连山兔狲「祁连山草原游客手抓鼠兔拍照 疾控中心:存在染疫风险」
近日,在社交媒体上出现了一位游客手抓鼠兔的照片,引发了广泛关注。海北州疾控中心表示,这种行为存在染疫风险,提醒游客不要触摸或喂食野生鼠兔。祁连山草原是中国的旅游景点之一...
日期:07-27
特斯拉老板马斯克掌管推特!奥迪、福特:不敢投广告了「特斯拉副总裁说了啥」
上周,马斯克已完成以440亿美元(约合人民币3220亿)将推特私有化的交易,并已掌管公司。作为全球最大的社交媒体平台之一,推特的主营业务利润来源都是广告,而现如今推特的Boss,变成了...
日期:11-10
森海塞尔耳机经典款_618购物狂欢全场真五折,森海塞尔四款耳机让利促销强势来袭
  音乐,已经成为高品质生活中必不可少的一部分,而一款好的音频设备则能让你更好的享受音乐,享受生活。时值一年一度的年中盛典618购物狂欢节,相信不少小伙伴都想要趁此入手...
日期:07-14
苹果不小心摔到地上_苹果回忆:为证明 iPhone 结实,乔布斯拿起手机就往地上摔
  10 月 4 日消息,随着苹果联合创始人史蒂夫・乔布斯(Steve Jobs)逝世 10 周年纪念日临近,许多科技行业人士开始分享有关他的点滴记忆。其中美国科技记者罗杰・程(Roger Ch...
日期:03-17
谷歌推出两项 AI 新功能 帮助广告主找到最佳广告展示位置「谷歌广告api」
6月15日消息:Alphabet 旗下的谷歌公司周三表示,他们将推出两项新的人工智能功能,帮助广告主在谷歌旗下的各项服务中找到最佳的广告展示位置。最近几个月以来,人工智能在科技行...
日期:06-15
消息称游戏制造商RockYou拟裁减40%员工
  北京时间11月3日消息,据国外媒体报道,多家媒体透露称,游戏制造商RockYou将在明天宣布一项重大裁员计划,预计将宣布裁减40%的员工。就在数周之前,RockYou刚刚推出了两款新游...
日期:07-24
谷歌Pixel 8/8 Pro规格页面曝光:10月4日发布_谷歌pixel1xl
距离谷歌Pixel 8/8 Pro手机发布还有不到一周的时间,这款新产品的配置信息以及渲染图已经多次曝光。最近,博主@Evan Blass又分享了产品的规格页面。 据了解,谷歌Pixel 8配备了6....
日期:09-30
全球购物App排行榜:中国电商“出海四小龙”上榜「全球五大电商平台」
  讯 2月8日上午消息,日前,第三方数据服务平台data.ai公布2023年1月iOS全球购物类App月度活跃用户排行榜中,中国电商“出海四小龙”上榜。其中Shein排名第2,速卖通排名第7,Temu...
日期:02-08
iPhone 14零件成本较13上涨20%:苹果卖一部仍能赚5000多元「苹果13的成本是多少」
2022年由于通胀、物流及大宗商品原料等原因,电子产品的成本都会有不同程度上涨,苹果的iPhone 14手机也不例外,日本拆解显示iPhone 14系列手机的零部件成本比iPhone 13上涨了20%...
日期:10-14
仙剑奇侠传原名逍遥侠客行上热搜 姚仙:新名包含四大主角_仙剑奇侠传商羽
10月9日,《仙剑奇侠传》原名《逍遥侠客行》话题冲上热搜榜首引发关注。据悉,《逍遥侠客行》为单机游戏《仙剑奇侠传》的原定名称,但并没被正式采用。接受采访时,仙剑之父”姚壮...
日期:10-10
NASA定于9月3日重新发射“阿尔忒弥斯1号”火箭_阿特拉斯号运载火箭
当地时间8月30日,美国国家航空航天局(NASA)“阿尔忒弥斯1号”任务经理迈克·萨拉芬表示,将于9月3日重新发射“阿尔忒弥斯1号”火箭。iqoo bmw萨拉芬指出,在29日发现火箭其中一个...
日期:09-28
微软暗示带有第三方人工智能插件的 Windows 11 Copilot 即将推出_微软人工智能叫啥
7月31日消息:微软的 Windows Copilot 插件支持即将推出,并且微软正在征求开发者的反馈,以帮助塑造操作系统的「第三方 AI 插件」的未来。此次调查是在 Windows Latest 报道揭...
日期:07-31
稀有麒麟9000 5G芯!华为商城上架HUAWEI Mate X2 5G官翻机
昨日,华为商城上架HUAWEI Mate X2 5G官翻机,目前仅提供亮黑色8GB+256GB版本,售价17499元(上市价为:17999元)。华为 Mate X2 发布于 2021 年 2 月 22 日,采用内折设计,双旋转水滴铰链...
日期:12-03
美团 腾讯持股占比「万亿美团,大跌10%!腾讯真要减持吗?」
  文 | 唐燕飞 温婷  大股东减持的传闻引发各界猜测,在二级市场掀起波澜。  8月16日,美团股价午后持续走低,跌幅一度扩大至10%。截至收盘,股价有所回升,跌幅为9.07%。  ...
日期:10-03
手工耿打造电动旋转爆米花支架 太实用了 现实已有成品「电动爆米花机器视频教程」
快科技5月10日消息,手工耿又带来了新发明:电动旋转的爆米花支架。华为mate50没有5g还值得买吗这款支架机身采用钢板打造,内含电池、电机,通过齿轮带动爆米花机旋转。转速可快可...
日期:05-10
GARMIN全新MARQ系列高端智能腕表在京发布_Garmin智能手表
  【2019年4月16日,北京】Garmin佳明于北京瑰丽酒店举行一场媒体品鉴会,正式发布全新MARQ系列高端智能腕表。Garmin中国区资深营销总监周子尧(Jeffrey Chou)先生、Garmin亚...
日期:01-09