您的位置:首页 > 互联网

谷歌“最强”AI诞生!听、说、看、写样样精通,还能教人做饭……

发布时间:2023-12-08 14:07:50  来源:互联网     背景:

没想到,拥有“AI”后的世界已经发展成这样了!

小米平板5发布会时间

自从去年ChatGPT面世后,今年5月谷歌也坐不住了,宣布要搞AI大模型,但由于种种原因,一直等到大半年后的今天,才正式发布了新一代大语言模型“Gemini”。

谷歌出手,就是不同凡响,虽然步子慢了,但成果很“硬核”。在官方演示中,Gemini可以非常自如地在图像、音频、视频各模态之间转换,其能力也让人刮目相看,例如根据一张地图和表情符号,就能设计出“猜国家”游戏;或者根据文字和图像,猜出是哪部电影......

这还不够,它还会教人念中文并区分四个声调,甚至能手把手教你做饭,有种上班是老师,下班秒变“小厨师”的感觉,任谁看了不直呼一句“厉害”!

难怪谷歌官方称,Gemini是谷歌迄今为止“最大、最全能的AI模型”,它能够进行更复杂的推理,理解更加细微的信息,甚至像人一样理解周围的世界。换句话说,它比之前任何技术都要牛!废话不多说,下面我们就来看看,这个AI大模型有多厉害。

长话短说,谷歌将Gemini定义为一款“原生多模态”模型!直白点解释就是,Gemini一出厂就是“全科发展”,多种感官在模型内统一学习,而不是单独学习再拼接到一起。

这里拿出OpenAI做典型,OpenAI的GPT-3.5一开始是纯文字大语言模型,直到GPT-4才安排了视觉等多模态能力,这种组装拼接吧,就好比先学了语文再学数学,极大可能带来“偏科”问题。

但全面发展的Gemini就不同,它从第一天起就设计成原生多模态结构,相当于“所有科目一起学”,用谷歌的话讲,它能无缝理解、操作不同类型的信息,包括文本、代码、音频、图像和视频等,不需要额外转换,各种模态的性能也更为平衡。

这里再举个简单的例子:同样是要理解图像信息,像GPT-4这样的非原生多模态结构模型,需要先借助OCR(光学字符识别技术)先“认出来”图里是什么——转成文本,再放到语言模型中进行语义理解。而Gemini能基于图像马上进行理解,这种端到端的理解,不会让信息在“转录”过程中丢失。

这样一对比,想必大家就都懂了。

看来,谷歌称Gemini超越了GPT-4,还真不是瞎吹牛!值得一提的是,谷歌这次一口气提供了Gemini的三个尺寸模型:Gemini Ultra、Gemini Pro、Gemini Nano ,并分别对其进行了优化。

其中,Gemini Ultra版本功能最强大,能够完成高度复杂的任务,主要面向数据中心和企业级应用;Gemini Pro则是性能最好的模型,可以执行多种任务,将通过谷歌的类ChatGPT聊天机器人Bard,为众多谷歌AI服务提供支持,加持谷歌的Gmail、Maps Docs和YouTube等服务。

最后就是Gemini Nano,这是最高效的模型,用于设备端任务,可以在安卓设备上本地和离线运行。按照谷歌所说,该模型将首次内置于谷歌手机Pixel 8 Pro上,支持录音自动摘要、键盘智能回复两项功能,未来预计将更多功能置于安卓手机离线运行。

键盘自动生成回复语▲

整体来看,Gemini的多样化设计,使其能够在各种设备上运行,从手机到大型数据中心均适用,其优势显而易见。话虽这么说,但纸上谈兵可没有信服力!

既然是被拿来“硬刚”GPT-4的模型,Gemini当然少不了经历一番测试。

根据内部消息,在推出Gemini之前,谷歌就对该模型进行过一系列标准测试。结果显示,性能上,Gemini训练所用的算力达到GPT-4的五倍,非常出色。其中,特别是在语言理解、推理、数学和编程测试中表现更佳。尤其是Gemini Ultra,在32个常用的学术基准的30个上,已经超越GPT-4。

并且Gemini Ultra在大规模多任务语言理解任务上,得分高达90.0%,是首个超越人类专家的模型。

谷歌DeepMind CEO Demis Hassabis表示:“这是我们目前规模最大,性能最强的大模型,Gemini可以像我们一样,理解我们周围的世界。”确实,对于普通人而言,Gemini也大有用处,它可以同时识别和理解文本、图像、音频等各种形式的输入内容,因此能更好地理解细微的信息,回答与复杂主题相关的各类问题。

具体来看,对于图像理解方面,根据谷歌在发布会放出的演示视频,Gemini是玩“你画我猜”的一把好手,不仅能准确地描绘出测试者在纸上画出的图形,还能根据测试者画出的轮廓,猜测出她绘制的是什么东西。

此外,它还能根据给出的文字和图像,正确猜出所指电影的名字;又或者根据所给的服装图像,告诉你使用场景,甚至为这套搭配取名。

甚至它还能把图像,转变成代码......

而在音频理解上,Gemini也是一把好手,例如用户上传了一段非英语的音频,然后又录了一段英语的音频来提问。这听起来似乎有点麻烦,但Gemini却可以轻松解决,它能同时处理两段不同语言的音频,并精准输出所需要的摘要内容,让人眼前一亮。

还没完!Gemini还能根据指示,教工作人员“鸭子”的普通话发音,并解释了汉语声调,点个赞!

更厉害的是,它还能教你做饭,例如煎个蛋?你可以用语音问Gemini,还可以把手头有的食材拍个照片发过去,然后Gemini就会结合配图中的食材,及所发送的音频需求,来一步步教你怎么做出完美的煎蛋。没想到,有一天AI也能指导做饭,各位不会做饭星人有救了。

重点来了,Gemini理解文本的能力也不容小觑,它尤其擅长解释数学和物理等复杂科目中的推理。对于很多家长来说,辅导孩子作业也是下班后“必不可少的工作”,但有时一些题目自己也不会,或者因为一些别的事,没时间辅导孩子,该怎么办呢?答案很简单,拍张图交给Gemini就完事了。

它在给出正确答案的基础上,还能针对解答过程中孩子不懂的步骤给出具体解释,甚至它还可以指出孩子解答过程中具体出错的点。最后,你还可以直接让Gemini输出一个和出错类型相似的题目,让孩子再巩固一下知识点。

其它方面,Gemini在辨认环境、物体等场景,也不在话下。从谷歌演示来看,给它一张充满阳光的房间照片,它就能推理出来这个房间是朝南朝北,甚至告诉你房间里的植物应该要怎么照顾。整个交流过程十分顺畅,可见Gemini在多语言环境下表现出众,完全不亚于GPT-4。

官方介绍,在Gemini的三个尺寸模型中,Gemini Pro已率先被用在谷歌聊天机器Bard的升级上。经过谷歌测试后,Gemini Pro的表现要优于GPT-3.5。

而为了进一步展现升级后的Bard有多强,谷歌还请了油管教育博主Mark Rober,全程使用Bard作为辅助工具,从零开始画图纸,最后真的造出了一架巨大的纸飞机。

说了这么多,其实无论是指导做饭,还是辅助造纸飞机,都直观说明了,Gemini确实给普通大众的生活,带来了一定帮助,让AI真正融入日常。

当然,除了上面说到的这些之外,谷歌还展示了Gemini的很多能力,例如读柱状图,生成表格;或者直接生成图文并茂的博客;以及展示图形逻辑的推理,还有更为复杂的编程等等,这些都很好说明了Gemini确实很聪明,智慧。

说了这么多,总之从谷歌公布的一系列参数和操作展示来看,Gemini的“AI能力”有目共睹,确实越来越像一位真正的“人类助手”!

现如今,人工智能迎来发展浪潮,对于谷歌而言,在AI即使早在AI领域深耕多年,拥有优质人才和深厚技术积累,却被OpenAI抢了先,以至于后面不得不奋力追赶。

细数下来,今年3月OpenAI发布GPT-4,随后谷歌搞了一款Bard的聊天机器人,但可惜这款对标ChatGPT的机器人并没有获得很大的市场声量。后面的故事也不少,谷歌连续官宣战略合作、紧急发布多个AI工具等等,这些大动作,无疑都表明了谷歌在强烈反击。

直到“谷歌大脑”与Alphabet旗下的人工智能实验室DeepMind合并后,数百名AI精兵疯狂冲刺,才有了Gemini的诞生。现在凭借Gemini的强大实力,谷歌终于扬眉吐气,据说Gemini官宣发布后,不少OpenAI的研究员也都发文祝贺谷歌。

而纵观当下整个AI浪潮发展史,Gemini的发布无疑是AI界又一个里程碑,这意味着AI大模型浪潮进入到一个全新阶段,比起大语言模型,这种多模态模型的运作模式,才是人类最自然的和世界交互的方式。

但话说回来,多模态领域还在技术探索初期,Gemini的发布也只是掀起了其中一角,但这也将直接导致全球的AI大模型竞赛进入新一轮竞争,那么就期待下谷歌或OpenAI,会不会再掀起巨大水花吧。

本文由极果用户极果媒体原创


返回网站首页

本文评论
免费十年突然改版!游侠对战平台宣布每天只能免费一小时「游侠对战平台还能用吗」
对于不少玩家来说,游侠对战平台都不是一个陌生的名字,作为国内最知名的几个单机游戏队战平台之一,游侠一直保持免费运营,有着一批坚实的受众。但近日,游侠工作组官方突然宣布,游侠...
日期:01-03
“华米OV”的新战场:手机大模型_华米是什么手机
声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:刘俊宏,授权转载发布。马斯克怎么这么有钱大模型重塑一切的风,吹到了手机行业。在见识了大模型重塑IT基础设施、营...
日期:10-26
《灌篮高手》周边卖断货:多款新品1分钟内售罄_灌篮高手限量版
4月20日消息,《灌篮高手》剧场版在中国上映。上午10点,东映动画在天猫旗舰店首发上线了10款《灌篮高手》剧场版周边限量新品,包括湘北高中手办、湘北队服球衣、棒球帽等。上线...
日期:04-20
联想a830怎么样「联想a830t」
联想A830是一款中档智能手机,拥有良好的性价比和出色的性能表现。现在随着人们对手机性能的要求越来越高,联想A830仍然可以满足一定层次用户的使用需求。下面就让我们来一起了...
日期:05-30
相约黄浦江畔,汇聚AI与边缘计算的力量_俯瞰黄浦江畔
很高兴告诉您:全球边缘计算大会·上海站即将盛大启幕!第八届全球边缘计算大会将于 12 月 16 日(周六)在上海黄浦江旁边的三至喜来登酒店召开,距离这场边缘计算年度盛会开幕仅剩最...
日期:11-15
iphone显示器尺寸「苹果首款头显屏幕规格曝光:1.41英寸4K屏幕,峰值亮度超5000尼特」
IT之家 5 月 31 日消息,多方消息源表明苹果会在 6 月 6 日凌晨 1 点召开的 WWDC 2023 开发者大会上,宣布首款 AR / VR 头显。屏幕供应链咨询公司 DSCC 首席执行官罗斯・杨(Ross...
日期:05-31
年轻人务农「10万95后回乡“务农”」
声明:本文来自于微信公众号 字母榜(ID:wujicaijing),作者:彦飞,授权转载发布。在创业失败、背上60多万元外债后,李诗宣决定回乡务农。李诗宣1996年生于山西吕梁文水县的刘胡兰镇,2...
日期:10-03
腾讯将发布大模型训练自研向量数据库已申请自研向量数据库商标
7月4日 消息:据报道,腾讯云将正式发布自研向量数据库(Tencent Cloud VectorDB),该数据库面向大模型训练,让企业原先花一个月时间才能完成的大模型接入,缩短到三天时间。谷歌眼镜最...
日期:07-04
奈飞在iOS和安卓平台推出游戏手柄功能「支持ios手柄的游戏」
  奈飞(Netflix)9月28日宣布在iOS和Android平台推出创建游戏手柄的功能,奈飞会员能够创建一个独特的用户名,并在所有奈飞游戏中使用。在Rival Pirates这样的多人游戏中,游戏手...
日期:10-02
人工智能监督机制「人工智能监管新思路,用AI监管AI可行吗?」
国外大卫·布林(David Brin)纪实小说《AI 的灵魂》(Soul on AI)作者提出了一种新的监管角度,即让人工智能互相监督、竞争和告密,以应对生成式人工智能可能带来的潜在风险。作者...
日期:07-20
美国科技行业投资银行太平洋寰冠证券收购弘亚世代咨询公司
  北京时间5月13日早间消息,美国科技行业投资银行太平洋寰冠证券(Pacific Crest Securities)已经收购了总部位于上海的科技投资研究公司弘亚世代咨询公司(Pacific Epoch)...
日期:07-27
美股周一:三大股指全线收涨1%,特斯拉跌逾6%,B站跌超9%「美国股市周二收盘涨跌情况」
美国时间周一,美股收盘主要股指全线上涨,涨幅均超1%。投资者将目光转向未来两天的美国通胀数据和美联储决策,它们可能为今年美股剩余的时间定下基调。道琼斯指数收于34005.04点...
日期:12-13
国务院倡议使用微信到家业务,这12个能力让到家业务经营事半功倍
  近日,国务院联防联控机制召开新闻发布会,介绍疫情防控中重要生活物资生产保供有关情况。会上,国务院商务部市场运行司副司长王斌向全国市民发出倡议:大家尽量少出门,生鲜物...
日期:03-13
价格能顶半套正版Win11 老牌压缩软件WinZip 27发布 你会买吗?
作为日常使用最多的应用软件之一,一个好用的压缩软件可以提升工作效率,老牌压缩软件WinZip日前发布了最新的WinZip 27版,不过价格不菲,Pro版人民币售价差不多能买半套正版Win11...
日期:12-16
面对“新iPhone时刻”,张勇很勇
声明:本文来自微信公众号“字母榜”(ID:wujicaijing),作者:谭宵寒,,授权转载发布。阿里按下快进键。京东苹果活动日美股和港股均大涨近15%——阿里的“1+6+N”组织变革获得了市场...
日期:03-29
众筹仅售999元!悠启走步机不足千元告别健身房
  健身卡动辄几千元,办了一年却只去了几次;入手了跑步机,几个月后沦为家里最贵的晾衣架;想饭后去室外跑跑步或者散散步,可是:今天太热、明天下雨、后天有饭局……上班族...
日期:07-14
批评欧盟AI法案草案限制产业发展,多家欧洲企业签署公开信_欧盟iuu法规
7 月 4 日消息,欧洲议会在 6 月 14 日通过了人工智能法案草案,这是欧美第一个全面性的 AI 法规,以确保能够可控监管欧洲公司推出的 AI 模型。但多名欧洲企业日前签署公开信,反对...
日期:09-22
投资人:推特目前估值仅为马斯克收购时的1/3_推特 收购
马斯克与特斯拉发生了什么准儿翻译机pro官网三星折叠手机zflip35月31日消息,美国金融服务公司富达投资(Fidelity)的数据显示,推特当前估值仅为埃隆·马斯克(Elon Musk)收购出价的...
日期:05-31
俞敏洪:做企业一定要有使命感和崇高感 要赚钱更要惠及他人_俞敏洪的创业精神
12月16日 消息:12月16日消息,由《哈弗商业评论》中文版主办的经营确定性·2022新增长大会于北京召开,新东方集团的创始人俞敏洪出席了大会并发表了演讲。小米林斌简介俞敏洪表...
日期:12-16
评论:网剧不需要虚假“神话”「神话电视剧评价知乎」
  来源:工人日报小米发布会 小米平板5  中国的一部网剧能有多火?很多时候,它的播放量,全球人口数加起来都达不到。  比如,2017年,在某平台上,点击量破百亿的影视剧就达12个。...
日期:09-09