您的位置:首页 > 互联网

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠作弊?

发布时间:2023-12-08 22:42:15  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】才一天,谷歌Gemini被质疑造假、夸大宣传的议论声淹没了。多模态视频是剪辑拼贴的,打败GPT-4靠的是CoT@32,AlphaGo也并未结合进Gemini中。谷歌这波公关,属实是着急了。

谷歌的宣传视频,竟然作假了?

在谷歌昨天发布的Gemini的宣传视频中,所有人都被那一段6分钟一镜到底的互动视频惊艳到了。

一天之内有720万的播放量。网友惊呼,Gemini看起来就像一个能随时事无巨细地向你解释一切的朋友。

视频中看起来,好像Gemini能够实时地感知人类的动作,并且直接做出语音回应。

然而,有越来越多的人质疑demo的真实性。

彭博社的Parmy Olsen,第一个质疑视频造假。

随后,谷歌官博也放出了解释——

是的,视频的确有后期制作和剪辑的成分。

根据官方发布的一个技术文档,Gemini所有的这些交互都不是实时感知到的,而是通过提示词问出来的。比如:

视频中显示,似乎Gemini能直接看懂人类在玩石头剪子布,

但其实,真实的过程是,向Gemini上传一张手比剪刀的照片,问它看到了什么。然后用人声把它的回复读了出来。

而石头剪子布的视频,则是把三张照片依次传给Gemini,让它把这三张照片连在一起推理,它直接给出回答,这是在玩石头剪子布。

所以,实际上并不是Gemini看懂了一段视频,它只是看懂了三张图片,并且做出了推理而已。

人类给Gemini传了一张剪刀的照片,Gemini回复说:这似乎是伸出了两个指头的手势,一般来说这个手势代表着数字2。然后人类又传了3张石头剪刀布的手势照片,问它这三张照片合在一起是什么意思。Gemini才说了这是石头剪子布游戏

同样,在识别行星的演示,视频给人营造的感觉仿佛是直接问Gemini这个顺序正确吗,它就能回答不正确,应该是太阳、地球、土星。

但实际上,是谷歌给了Gemini一句prompt:这个顺序正确吗?请考虑它们与太阳的距离,并且解释你的理由,随后,Gemini才回答了那样一句话。

很多网友也认为,谷歌这种有意地误导性呈现,反而让用户会怀疑,到底模型的真实能力有多强。

毕竟,产品不能永远停留在宣传视频里,最终都要交到用户手上去体验。

这个视频最大的误导性在于,似乎让用户误以为Gemini能实时的读取视频信息,并且能够通过自己的理解直接推测用户的问题并直接回复。

而实际情况是,谷歌员工是通过读取图片+良好的提示词工程才能让Gemini生成这些回复的。

虽然说从技术原理上来看,能够读取图片和能够看懂视频之间,并没有技术上的鸿沟。

但是从产品实现落地的角度看,把读取图片约等于能实时看懂视频,并且过于强调实时性而压缩了交互过程中的延迟,这几乎已经可以理解为虚假宣传了。

而是否需要良好的提示词工程,更是评价模型能力的关键问题。

谷歌的这些后期加工,只能说明,他们太想让Gemini看起来比竞品好太多了。

毕竟,起了个大早却赶了个晚集的谷歌,在大模型上确实太需要流量了。

在YouTube描述中,谷歌也承认了该视频被编辑为延迟,这样就能使得模型看起来响应速度比实际更快。

Olson表示,谷歌的营销非常巧妙,所以我们真的应该在AI炒作中更加谨慎,保持清醒的头脑和判断力。

谷歌,令人失望了

本来,昨天Gemini的演示一出立马惊艳了众人,本来是多模态理解领域的一次令人兴奋的展示。

现在被扒出伪造,显然会让用户对谷歌的诚信失去信心。谷歌这一出,着实得不偿失。

其实本来,Gemini确实输出了视频中显示的回应。

但视频的剪辑效果,却会让用户对于Gemini的交互速度、准确性和基本模式产生误解。

石头剪子布的demo,和实际上Gemini对于三张图片的识别,是完全不同的交互。

前者是一种直观的反应,表示Gemini可以即时捕捉一个抽象的想法;而后者,则是经过精心设计、充满大量暗示的交互,虽然的确体现了Gemini的能力,但也具有不少局限性。

如果视频一开始就明确指出,这是研究人员测试Gemini互动的一种风格化演示,可能会让公众的期待者降低一些,也就不会像如今这样失望。

而且,视频名叫Hands-on with Gemini,暗示了视频中展示的就是和Gemini的原样互动。然而实际上Gemini的参与程度,是掺了水分的。

视频中也没有明说,视频中的模型,到底是Gemini的哪个版本。

总的来说,这段视频半真半假,尽管包含一些真实的成分,但它根本没有反映现实。

网友深表理解

Perplexity AI的首席执行官将网友对谷歌Gemini造假视频,做了客观的分析。

当前有两种激进派的人,是这样看待Gemini的发布:

极端看法1:DeepMind伪造了评估和演示。Gemini很糟糕。

极端看法2:OpenAI 完蛋了。谷歌回来了。Bard将免费运行Gemini,因为计算芯片的利润空间,它会击败 ChatGPT。

而现实情况是,Gemini很酷,是第一个真正可以与GPT-4媲美的模型,也是谷歌真正的成就之一。尤其它仅仅是一个密集型模型(原生模型)。

这次,只能说谷歌的市场营销手段过火了,但众所周知DeepMind喜欢高调公关。

而谷歌视频演示的多模态能力,实际上在一年内就能实现。

一位网友对此表示深度赞同,太多人想要给谷歌扣上伪造视频的黑帽。

还有人表示完全理解炒作的行为,毕竟谷歌对微软OpenAI的反击晚了一步。

打败GPT-4,靠的是作弊

另外,谷歌发布的这个表格,显示出Gemini Ultra在大多数标准基准测试中击败了GPT-4。

可是这种比较并不公平。

GPT-4的86.4%分数是基于行业评估标准,即5-shot。

然而,Gemini Ultra90%的得分是基于谷歌研究人员开发的一种基于32个样本的思维链的方法。

对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。

或许就是这种新方法,让Gemini能够更好地推理。

但是,在使用行业标准5-shot MMLU的情况下,GPT-4的86.4%要高于Gemini Ultra的83.7%。

HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中扒了数据,重做了一张新图——如果使用5-shot,Gemini的得分实为83.7%,而非90.0%。

而且,Gemini Ultra对于GPT-4仅有几个百分点的优势,但是GPT-4,是OpenAI差不多一年前的产品。

外媒The Information发布了题为《Gemini可能并不像谷歌说的那么好》的文章,表示谷歌的员工一定是压力太大了,因为他们用了一些额外的措施,让Gemini看起来比竞争对手更出色。

如果真如谷歌所说,Gemini Ultra是在明年一月发布,那它可能SOTA不了多久。

要知道,OpenAI的GPT-5,应该已经在路上了。

似乎是内部知情人士艾特了Sam Altman,问他还要把宝贝捂到什么时候?还不赶快拿出来?

网友试用体验

我让Gemini画了一幅一个人开着电卡车在树林里露营的图,它生成的样子如下。

还是需要稍加修改,有待进步。

这位网友发出了自己测试基于Gemini Pro的Bard,对于很多事实类问题还是有错误。

他问了两遍Bard奥斯卡2023年的获奖情况,Bard给了两个不同的错误获奖名单。

另一个网友又问了一个和翻译有关的问题,结果也不太对。

似乎它对语言中单词字数非常不敏感,经常会数错。

而对于谷歌重点宣传的代码能力,似乎Bard的表现也不够好,难道原因是在Stackoverflow上没有对应的答案?

还有人也模仿谷歌的行为,让ChatGPT从MP4中提取视频帧,然后解释视频......

ChatGPT自主从从视频中提取帧,然后网友上传6张对应图片,让ChatGPT给出具体的解释。

Gemini时代来临了

作为谷歌DeepMind的领导人,Demis Hassabis也是兴奋不已,并表示Gemini的时代来临了。

最新Wired的采访中,Hassabis直言道,谷歌今天宣布的人工智能模型Gemini为人工智能开辟了一条未被实践的道路,可能会带来重大的新突破。

作为一名神经科学家和计算机科学家,多年来我一直想尝试创造一种新一代的人工智能模型。而这些模型的灵感来自我们所有感官互动和理解世界的方式。

Gemini是向这种『多模态』模型迈出的一大步。

他继续道,到目前为止,大多数模型都是通过训练单独的模块,然后将其拼接在一起,来实现多模态能力。

对于某些任务来说,这是可以的,但是在多模态空间中,无法进行深度复杂推理。

这似乎是在暗指OpenAI的技术。

我们都知道,ChatGPT的多模态能力,是由GPT-4、DALL·E3、Whisper多个模型组合而实现的。

今年5月的谷歌开发者大会I/O上,劈柴首次官宣,谷歌正在训练一个新的、更强大的PaLM继任者,名为Gemini。

Gemini的命名也有深层的寓意,是为了纪念谷歌大脑和DeepMind两个团队实验室的合体,并向美国宇航局Gemini致敬。

7个月的时间,关于Gemini的各种爆料也是层出不穷。

而现在,谷歌以惊人的速度研发出Gemini,着实在年底之前来了一次重磅反击。

Hassabis说,新模型能够处理不同形式的数据,包括文本之外的数据,这是该项目从一开始就愿景的关键部分。

许多人工智能研究人员认为,能够利用不同格式的数据是自然智能的一项关键能力,而这正是机器所缺乏的。

ChatGPT等AI大模型因从强大的互联网数据中学习,获得了灵活且强大的泛化能力。

但是,尽管ChatGPT和类似的聊天机器人可以用同样的技巧,来讨论或回答有关物理世界的问题,但这种表面上的理解很快就会瓦解。

许多人工智能专家认为,要使机器智能取得重大进步,就需要AI系统在物理现实中赋予身体,即具身。

Hassabis表示,谷歌DeepMind已经在研究,如何将Gemini与机器人技术相结合,与世界进行物理互动。

要实现真正的多模态,你需要包括触觉和触觉反馈。将这些基础型模型应用于机器人技术有很多希望,我们正在大力探索。

目前,谷歌已经朝着这个方向迈出了一小步。

5月,该公司宣布了一款名为Gato的AI模型,能够学习执行各种任务,包括玩Atari游戏、为图像添加字幕,以及使用机械臂堆叠积木。

今年7月,谷歌RT-2机器人模型,便是通过语言模型来帮助机器人理解和执行动作。

为了让AI智能体更可靠,就需要为其提供动力的算法必须更加智能。

前段时间,OpenAI曾被曝出开发一个名为Q*的项目,网友纷纷猜测可能用到了强化学习,这是AlphaGo的核心技术。

不过,Hassabis称,谷歌目前正在按照类似的思路进行研究。

AlphaGo的进步有望帮助改善未来模型的规划和推理,就像今天推出的模型一样。我们正在努力进行一些有趣的创新,以将其带入Gemini的未来版本。

明年,你将会看Gemini超强进化。

看来,正如网友所说,我们离GPT-5降临的那一天也不远了。

蚊子是怎么吸我们的血的

现在,谷歌有Gemini,微软有GPT,Meta有LLaMA,Anthropic有Claude,这是否意味着苹果iPhone时代的终结?

参考资料:

https://twitter.com/parmy/status/1732811357068615969

https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html


返回网站首页

本文评论
谷歌员工对削减成本不满:CEO 称“不要把乐趣等同于金钱”「谷歌对员工的要求」
  北京时间 9 月 23 日晚间消息,据报道,在谷歌本周的“全员大会”上,员工们对公司近期的一系列削减成本措施表示不满,而 CEO 桑达尔・皮查伊(Sundar Pichai)回应称,不要总是把乐...
日期:09-29
微信朋友圈大规模上线置顶功能 网友:这功能意义不大_微信朋友圈有置顶设置吗
快科技8月7日消息,用户发现微信朋友圈已经大规模上线置顶功能。用户可以选择需要置顶的某条朋友圈内容,点击右上角...”图标,并点击下方置顶”即可将该条朋友圈置顶。对此,不少...
日期:08-08
彻底没了!消息称苹果iPhone将抛弃Touch ID功能_iphone6没有touch id
苹果在2017年的iPhone X上使用了Face ID,从而取代了Touch ID功能,但是外界一直有Touch ID回归的传言,但是知道今年的iPhone 14系列,仍然没有见到Touch ID的身影。据知名苹果爆料...
日期:10-05
荣耀官方旗舰店周年庆成绩亮眼,荣耀V30、荣耀9X获多项冠军(荣耀v4099元)
  今天(1月10日),荣耀公布了天猫荣耀官方旗舰店周年庆销售战报。战报显示,1月9日,荣耀斩获天猫手机品牌当日销量冠军,荣耀V30斩获天猫手机单品销量、安卓手机销量&销售额三冠...
日期:02-25
英伟达 CPU 问世_英伟达、英特尔、AMD等芯片巨头集体萎靡,PC销售热潮已退
  过去近两年,当疫情期间人们被隔离在家时,PC出货量出现爆发式增长。而现在,这样的增长终于消失。   当地时间8月8日,存储芯片公司美光警告称,PC需求表现疲软,市场充满挑战。...
日期:08-17
报告称今年女性平均月薪8689元 网友:我好像又拖后腿了「中国女性平均工资和男性平均工资」
智联招聘发布的《2023中国女性职场现状调查报告》显示,2023年女性平均月薪为8689元,比男性少1253元,但与男性相比,性别薪酬差距逐年缩小。2019年女性比男性月薪低23.5%,2023年相...
日期:03-08
跟董明珠学习很幸福!王自如要对格力渠道改革 线上进货让经销商感叹
快科技11月30日消息,据国内媒体报道称,格力渠道改革负责人王自如近日开会传达渠道改革最新政策,要求经销商线上云签网批”,也就是增设线上进货渠道。按照经销商的说法:就是董明珠...
日期:12-01
特斯拉全球工厂数量「全球工厂关停将致第三季度产量和交付量下滑-特斯拉警告」
9月7日消息,尽管最近特斯拉发布了Model 3焕新版可能会提振公司利润,但第三季度特斯拉业绩或将低于预期。德意志银行分析师埃马纽埃尔·罗斯纳(Emmanuel Rosner)在一份报告中透露...
日期:09-10
国家烟草专卖局:未取得烟草专卖许可证不得生产经营电子烟_电子烟是否需要得到烟草局的许可
9月29日 消息:今日,国家烟草专卖局发布《关于加强电子烟监管有关事项的通知》称,2022年10月1日起,从事电子烟生产经营的电子烟市场主体应当取得烟草专卖许可证,严格按照《中华人...
日期:10-05
骁龙8Gen3首个跑分出炉
骁龙8Gen3首个跑分出炉[微风]Geekbench 6 单核得分2233,多核得分6661,相比上一代单核提升11.4%,多核提升26.3%。阿里网上银行跑分样机是三星Galaxy S24+,搭配8GB内存,大家觉得这...
日期:08-01
爸爸第一次吃自助火锅满脸拘谨 网友:我们踩在父母肩上看世界「爸爸带孩子吃自助餐视频」
8月21日消息,微博话题爸爸第一次吃自助火锅满脸拘谨”上了热搜榜。iphone 14系列功能介绍播放飙速动画短视频索尼新产品发布会据媒体报道,女儿带爸爸第一次吃自助火锅。爸爸满...
日期:08-21
iqoo 8系列发布会「骁龙8 Gen3加持!iQOO12发布会定档11月7日」
在2023年骁龙峰会上落下帷幕后,各大安卓旗舰手机的发布会也陆续进入筹备阶段。iQOO官网今日正式公布了其新一代旗舰手机iQoo12的发布会时间,定于11月7日晚上7点在广州展开。据...
日期:10-27
都第六季了,《圆桌派》怎么没有瓶颈期?「圆桌派第6季」
声明:本文来自于微信公众号 吴怼怼(ID:esnql520),作者|耳东陈,监制|吴怼怼,授权转载发布。2016年,《人物》采访窦文涛,说《锵锵三人行》(当时还未停播)播了18年,是中国的电视节目奇观,1...
日期:11-17
如何入职谷歌「报道称OpenAI流失部分关键员工 选择加入谷歌」
6月27日 消息:德国广播公司Bayerischer Rundfunk (BR24)报道称,OpenAI正流失一些关键键员工,并加入谷歌公司。小米8小米11特斯拉起步出街据称,其中一些员工已经辞职并与谷歌签订...
日期:06-27
联合国警告脑机接口的危害:AI可能操纵人类大脑「脑机接口最新研究」
快科技7月17日消息,联合国最近对神经技术快速发展带来的潜在危害”发出警告,称大脑植入物和脑部扫描可能会让人工智能(AI)操纵人类大脑,侵犯私密的人类思想。联合国教科文组织...
日期:07-17
热门旗舰立省1000元,小米手机11.11优惠一图看懂_小米11 优惠券
中关村在线消息:双11期间想买旗舰手机的朋友注意了,小米热门旗舰手机有优惠了,最高立省1000元,至高支持24期免息分期,快来看看有没有你喜欢的型号——即将上市的诺基亚c3苹果还...
日期:10-28
美登月火箭发射连续推迟 马斯克暗示应改用甲烷作为燃料_为什么美国允许马斯克造火箭
9月5日消息,当地时间周六,美国宇航局(NASA)再次决定推迟无人环绕月球任务Artemis 1(“阿耳忒弥斯1号”)的发射,此前任务团队在向太空发射系统(SLS)火箭加注液氢时遭遇泄漏问题。对...
日期:09-28
数字藏品交易要注意知识产权问题_知识产权收藏
转自:经济参考报 智能电视与网络电视电动威马汽车多少钱mini LED产业链realme什么时候在中国开售的华为美籍高管   平面设计师Beeple的作品《每一天:最初的5000天》。资料图...
日期:08-16
苏宁金融与vivo达成合作 提供“零接触”普惠信贷服务
  近日,苏宁金融与vivo达成合作,旗下任性贷于6月18日正式接入vivo钱包,提供“零接触”普惠信贷服务。与vivo牵手,苏宁金融将充分发挥科技优势,为vivo手机用户提供更便捷、更安...
日期:07-14
b站跨年晚会直播人数「B站跨年晚会直播峰值达3.3亿」
1月1日消息,12月31日20时,由哔哩哔哩(以下简称“B站”)主办的跨年晚会《2022最美的夜bilibili晚会》正式播出。当晚,B站晚会直播人气峰值达到3.3亿,创造新纪录。据介绍,今年是B站“...
日期:01-01