您的位置:首页 > 互联网

谷歌认真起来,就没 OpenAI 什么事了!创始人亲自组队创建“杀手级”多模态 AI 模型

发布时间:2023-08-19 10:10:28  来源:互联网     背景:

声明:本文来自于微信公众号 InfoQ(ID:infoqchina),作者:冬梅、核子可乐,授权转载发布。

谷歌正在计划如何利用即将推出的大型语言模型系列 Gemini 来取代 ChatGPT。

截至目前,OpenAI 大语言模型在 AI 竞赛中一直处于领先地位。而强劲优势的背后,离不开微软庞大数据中心基础设施的有力支持。但 ChatGPT 的主导地位恐怕无法长久持续下去,因为新的、更强大的 AI 模型正不断涌现,而其中最具战斗力的挑战者就来自谷歌。

今年4月,Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 迈出了不寻常的一步:合并两个具有不同文化和代码的大型人工智能团队(谷歌 Brain 和 DeepMind 团队),以赶上并超越 OpenAI 和其他竞争对手。

现在,检验这个团队工作成果的时刻即将到来。有消息称,这支数百人组成的团队将在今年秋天发布一组大型机器学习模型 Gemini,这是该公司有史以来构建的风险最高的产品之一。据参与 Gemini 开发的人士透露,这些模型统称为 Gemini,预计将使谷歌能够制造出竞争对手无法制造的产品。

谷歌 Gemini 于今年5月在 I/O 开发者大会上首度亮相。

当时,谷歌称 Gemini 为其下一代基础模型,它仍在训练中。Gemini 是从一开始就以多模式、高效的工具和 API 集成为目标而创建的,旨在支持未来的创新,例如内存和规划。经过微调和严格的安全测试后,Gemini 将提供各种尺寸和功能,就像 PaLM2一样。

全世界都在关心的 Gemini 到底是个啥?

早在2016年,DeepMind 就因其人工智能程序 AlphaGo 在复杂的围棋游戏中击败了一位冠军选手而成为头条新闻。快进到今天,DeepMind 首席执行官 Demis Hassabis 透露,他的团队正在利用 AlphaGo 的变革性技术来创建 Gemini AI。Demis Hassabis 透露,Gemini AI 的开发成本估计为数亿美元,使用了数万颗谷歌的 TPU AI 芯片进行训练

据悉,Gemini AI 是一个类似于 ChatGPT 的 GPT-4的大规模语言模型。然而,Hassabis 和他的团队更进一步,为 Gemini AI 注入了源自 AlphaGo 的解决问题能力和战略规划能力。

从根本上讲,Gemini AI 包含下一代 AI 架构,有望取代 Google 当前的 AI 模型 PaLM2。该模型目前支持 Google 的一系列 AI 服务,例如 Workspace 应用程序中广泛使用的 Duet AI 和流行的 Bard 聊天机器人。

谷歌还放出消息,称 Gemini 将为旗下 AI 聊天机器人 Bard,以及 Google Docs、Slides 等企业级应用提供支持。

The Information 报道称,谷歌并不是简单地与 ChatGPT 等产品竞争,而是打算超越一众大模型产品让友商们无法望其项背。消息人士指出,该公司专注于将大型语言模型 (LLM) 的文本功能与人工智能图像生成相结合,以创建多功能产品。这意味着 Gemini 不仅能够像 ChatGPT 那样生成文本,还能够创建上下文图像,但据报道,谷歌也在考虑添加其他功能。例如,用户最终可能能够使用 Gemini 通过语音分析流程图或控制软件。

Gemini 之所以能够成为强大的竞争对手,是因为谷歌同样掌握着雄厚的资源储备,特别是用于训练 AI 模型的宝贵数据。谷歌能够访问 YouTube 视频、谷歌图书、庞大的搜索索引以及 Google Scholar 上的学术资料。其中大部分数据为谷歌所独有,这也使其在构建顶尖 AI 模型方面占据着超越其他厂商的优势

那么,Gemini 在训练中,具体都用到了哪些数据集?

Gemini 用到了哪些数据集?

据悉,Gemini 项目汲取了谷歌多个项目的数据集来训练大模型,包括了 Google Piper monorepo、DeepMind MassiveText 以及 YouTube 中的数据。

  • 来自 Google Piper monorepo 的 Gemini 数据集(估计)

Gemini 数据集可能由大量代码组成,以支持最终训练模型中的推理。Google 的内部 monorepo Piper 大小为86TB 。使用 The Pile 的每字节0.4412个令牌的计算,该数据集将约为37.9T 个令牌,或者大约是 GPT-4中下一个最大数据集大小的两倍(估计)。

  • 来自 DeepMind MassiveText 的 Gemini 数据集(估计)

Gemini 数据集可能由 DeepMind 的一些 MassiveText(多语言)5T 令牌数据集组成请注意,下表是关于 Gemini 数据集的猜测(未经 Google DeepMind 确认),并且基于来自最先进的 DeepMind MassiveText(多语言)+1,000B 讨论令牌的可用信息。MassiveText 包括网页、书籍、新闻和代码等文本,包含约23.5亿个文档,10.5TB 的文本量。

图片

MassiveText 多语言数据集估计。

*四舍五入大概的数据以粗体显示(来自 DeepMind 的 MassiveText 多语言数据集),确定的数据以斜体显示。

  • 来自 YouTube 的 Gemini 数据集(估计)

据一位知情人士透露,谷歌的研究人员一直在使用 YouTube 来开发其下一个大型语言模型 Gemini。

YouTube2023总体统计数据(来自 Wyzowl 和 Statista):

  • 视频总数:8亿。

  • 平均长度:11.7分钟。

  • 总时间:93.6亿分钟。

  • 四舍五入以跟上每小时上传30,000小时的速度:10B 分钟。

YouTube2023文本统计数据:

  • 人类说话速度:每分钟150个单词 (wpm)。

  • 150wpm x10B 分钟 = 总计1.5万亿字。

  • 假设:(1) 说话仅出现在视频的子集中,(2) 质量分类器保留分数位于前80% 的视频,那么我们保留其中的80%。

  • 1.5T 字 x0.8=1.2T 字。

  • 1.2T 单词 x1.3=1.56T 文本标记。

1.5T 文本令牌不足以大幅降低 Gemini 或 GPT-5规模模型的要求:

  • 1T 参数(20T 文本令牌)。

  • 2T 参数(40T 文本标记)。

  • 5T 参数(100T 文本令牌)。

鉴于2023-2024年大型语言模型对多模态的关注,可以假设视觉内容(不仅仅是文本)正在用于训练这些模型。

在将 YouTube 上的音频、视频数据注入 Gemini 数据集中后,Gemini 模型就具有了多模态能力,比如,根据 YouTube 视频训练的模型,可以帮助需要的人根据视频解决一些实际动手问题。

2019新款苹果笔记本macbookair

使用 YouTube 内容,还可以帮助谷歌开发更先进的文本转视频软件,根据用户想看的内容描述,自动生成详细的视频。

Google DeepMind 在 Piper(其86TB monorepo)中的迭代代码上训练大模型(DIDACT)。使用 The Pile 的每字节0.4412个令牌的计算,该数据集将约为37.9T 个令牌,大约是 GPT-4中下一个最大数据集大小的两倍(预估)。这意味着训练 Gemini 不会出现传闻中的数据匮乏的情况。

图片

2023年最大数据集列表(截至2023年6月)

四舍五入大概的数据以粗体显示,确定的数据以斜体显示。

据称与 GPT-4不同,Gemini 将是首个能够同时处理视频、文本和图像的多模态模型。有报告表明,Gemini 接受的训练令牌数量是 GPT-4的两倍,是 PaLM2的10倍。

Gemini+GPT-4等于 AGI?

Google Gemini 是一种多模式工具和 API 集成,旨在将 GPT-4等语言模型与 AlphaGo 中使用的技术相结合,以增强其能力,例如规划和解决问题。

比如,目前 GPT-4等大语言模型的缺陷主要体现在两方面:第一,是结果高度依赖训练语料,如果语料存在偏见或错误,那么大语言模型生成的结果也会是错误的;第二,是大语言模型可能会出现幻觉,给出完全不符合常识的错误信息,这主要是因为大语言模型只具备当前训练语料的知识,缺乏对真实世界全面而准确的理解。

Gemini 作为先进的数学定理证明系统,与 GPT4等大型语言模型相结合,有可能解决人工智能模型中搜索和规划的弱点,并生成新的定理。有专家预测,该模型可以在五年内达到 MMLU 基准的100分。

谷歌在构建和训练大语言模型方面还有着深厚的人才池和多年实践经验。除了预计于明年秋季发布的新模型之外,谷歌还有意发布由 Gemin 驱动的新聊天机器人,或者借此升级现有 Bard 聊天机器人。照惯例来看,新模型应该会通过 Google Cloud 对外发布,这无疑会对谷歌的云业务产生深远的积极影响。

Gemini 在上月谷歌开发者大会上首度亮相时曾遭嘲笑,期间谷歌展示的几个 AI 项目也未受认可。

谷歌称,Gemini 项目的下一代 AI 模型最早将于今年秋季推出。

联合创始人谢尔盖·布林躬身入局,组建研发团队

在将谷歌 Brain 和 DeepMind 两大 AI 部门合并时,掌门人皮查伊称是为了提高部门运作效率,将谷歌庞大的计算资源同 DeepMind 的研究技能结合起来。

消息人士指出,谷歌大脑和 DeepMind 团队的几位前成员目前正在研究 Gemini。其中包括 Google 高级研究员 Paul Barham 和 DeepMind 的 Tom Hennigan,后者专注于 Gemini 的基础设施。然而,最引人注目的团队成员可能是谷歌联合创始人谢尔盖·布林 (Sergey Brin)。

据报道,2022年底,布林开始更频繁地进入谷歌办公室。在谷歌于2022年底因 OpenAI 失去研究人员后,人们认为布林正在专注于 Gemini 的招聘流程。现在,消息人士称,他在评估和训练 Gemini 模型方面发挥了重要作用。

在此之前,两大部门也分别对 ChatGPT 做出了自己的回应。DeepMind 这边有 Goodall 项目,使用了一种名为 Chipmunk 的未公开模型,另一部门则拿出基于 Google Brain 模型的 Bard。尽管双方之间存在一定竞争,DeepMind 还是决定放弃 Goodall,转而在 Gemini 上携手合作。

3ChatGPT 的统治将就此终结?

事实上,Google Brain 和 DeepMind 的通力合作必然给 OpenAI 及其他竞争对手带来麻烦。当然,谷歌具体如何打造 Gemini 才是决定性因素。报道表明,Gemini 在多模态能力方面取得了显著进步,切实超越了以往模型。其设计侧重于多模态,意味着它能够理解和处理多种不同形式数据,并在工具与 API 集成方面极为高效。

具体来讲,Gemini 不仅擅长理解和生成会话文本,而且精通处理多种其他输入,例如文本、图像和视频。另有报道表明,Gemini 能够接收的 token 数量可达 GPT-4的两倍,这应该能够支撑起更强的智能度优势。

图片

随着生成式人工智能竞争格局的加剧,谷歌准备通过推出 Gemini AI 来展示其真正的能力。谷歌从匆忙引入 Bard 中汲取了宝贵的经验教训,决心确保无懈可击地进入市场。预计到2030年,生成式人工智能市场将达到1093.7亿美元,投资者和客户热情高涨,加剧了主导地位的争夺。谷歌着眼于彻底改变行业,已准备好释放 Gemini AI 的全部潜力,塑造文本分析人工智能解决方案的未来。

原文链接:

三星s7高通骁龙820好吗

https://indianexpress.com/article/technology/artificial-intelligence/google-gemini-ai-fall-launch-chatgpt-edge-8896455/lite/

https://www.androidpolice.com/google-ai-gemini-chatbot/

https://www.theinformation.com/articles/the-forced-marriage-at-the-heart-of-googles-ai-race?irclickid=XepQ8kzcBxyPURYQqf1uq0VoUkF3jszhq2PuWY0&irgwc=1&utm_source=affiliate&utm_medium=cpa&utm_campaign=10078-Skimbit%20Ltd.&utm_term=androidpolice.com

https://insights.daffodilsw.com/blog/google-gemini-algorithm-the-next-level-ai-model

https://lifearchitect.ai/gemini/


返回网站首页

本文评论
微信文件传输助手是官方的吗「微信文件传输助手是真人?官方回应来了!千万别给它改名字」
今天微信文件传输助手是真人”的话题引起不小关注。有网友在社交平台发文称,微信文件传输助手是真人,这让很多平时会将其当成是备忘录、网盘的朋友非常担忧。毕竟之前有不少人...
日期:06-28
解锁“流量密码” 云南移动动感地带大讲堂与行业大咖一起开课啦!
解锁“流量密码” 云南移动动感地带大讲堂与行业大咖一起开课啦! 通信产业网|2023-07-13 11:05:05作者:通文来源:通信产业网【通信产业网讯】视频不会做、内容没热度?如何才能正...
日期:07-13
昔日国内最强播放器!快播正式宣告破产 王欣早已放下:技术永远无罪
深圳市快播科技有限公司企业状态由吊销未注销变更为注销,注销原因为宣告破产。从实际显示情况,注销日期在5月26日,而注销原因是丧失法人资格。对于这样的结果,昔日快播CEO王欣表...
日期:05-30
售价17.59万起 全新雪弗兰迈锐宝XL上市 这内饰你能接受吗?_全新雪佛兰迈锐宝xl
快科技7月9日消息,作为一款外观时尚且极具性价比的合资品牌轿车,迈锐宝一直深受广大年轻消费者的喜爱。为了进一步提高产品竞争力,雪弗兰全新迈锐宝XL正式上市。此次共发布了5...
日期:07-09
摇摆宇宙月饼「“元宇宙里卖月饼”是炒作还是内卷?」
  中秋节将近,月饼市场的竞争更加激烈,且战场已经扩散到了“元宇宙”。上市公司、月饼生产基地、酒店老字号纷纷搭车“元宇宙”卖月饼。部分“数字月饼”打着“零糖零卡零脂...
日期:09-08
蜜雪冰城兑的是自来水吗「蜜雪冰城们的瓶装水“混战”:讲水源、玩概念、掀起价格战」
  文|《财瞭》;杨雪梅  夏天虽然过去了,但瓶装水的市场依然热闹。近日,蜜雪冰城在部分市场上市了“雪王爱喝水”瓶装水。天眼查信息显示,蜜雪冰城在瓶装水领域还申请了相关...
日期:09-29
抖音作品第四流量级人工审核「抖音新内容的价值:批量制造「A3人群」」
声明:本文来自于微信公众号 窄播(ID:exact-interaction),作者|庞梦圆 监制|邵乐乐,授权转载发布。扩大A3人群,就是在以新内容为介质,用更直接的方式做深度种草,提升内容到交易、种...
日期:10-06
王小川回应套壳 Meta 开源模型 LLaMa 质疑:团队知道从哪里拿最高质量的数据
7月22日消息:在极客公园 AGI Playground 论坛上,王小川回应了外界对百川智能开源模型 Baichuan-7B 套壳 Meta 开源模型 LLaMa 的质疑。王小川提到,搜索公司干了 20 年,团队对语...
日期:07-22
这届年轻人“断亲”或已成常态 90后/00后几乎都不走亲戚:原因无奈
亲戚往来,是维系中华传统亲情文化的重要纽带,但是这一届的年轻人,断亲”已经成为常态,走亲戚越来越少。2022年,南京大学社会学院副教授胡小武调查发现,18岁以下的被调查者基本不怎...
日期:05-14
两款《古墓丽影》游戏将登陆Switch!跟着劳拉去破坏“文物”「steam 古墓丽影」
快科技4月30日消息,据ESRB评级信息,两款《古墓丽影》游戏将登陆Switch平台,这是一款包含两款动作冒险游戏的合集。spacex链路卫星魅族88元换电池计划黄牛iphone14价格比官方还...
日期:04-30
火山翻译年度盘点:年底每天“干活”1.38亿次(第四届火山翻译)
  日前火山翻译团队发布《请翻译2020》年度盘点,详解过去一年上线的火山翻译Studio、火山同传等新品,以及在训练机器翻译模型过程中遭遇的技术难点和解决方案。2020年最后...
日期:07-16
讯飞输入法AI技术,荣膺中国品牌日“国货新品”
  2021年中国品牌日活动10日在上海展览中心启动,这是我国第五次举办中国品牌日活动。今年中国品牌日活动的主题是“中国品牌,世界共享;聚力双循环,引领新消费”。在活动现场...
日期:12-27
你回了吗?初五初六迎来春节假期返程高峰 自驾返程高峰将持续到正月十五
假期余额不足,你踏上返程的路了吗?ai创作的画作今天(1月26日)是春运第20天,返程客流高峰正在形成。国务院联防联控机制春运工作专班数据显示,截至今天,全国铁路、公路、水路、民航...
日期:01-27
巴黎世家推出13000元薯片包:国内还未开售已被订光!网友平替含泪省1万3
朋友,听说过薯片包吗?从字面意义上,它是薯片的包装袋,可是从时尚的角度,这是在今年巴黎世家(Balenciaga)春夏大秀上出现的一种新式包包。官方毫不避讳灵感来自乐事薯片袋”,皱巴巴看...
日期:11-16
Linux Kernel 5.19将优化exFAT、EXT4 和 XFS 文件系统(linux xfs和ext4的区别)
  除了针对 Btrfs 文件系统更新之外,正在开发中的 Linux Kernel 5.19 对 exFAT、EXT4 和 XFS 文件系统也有优化。在合并窗口期内,Linux 团队明确将修复 EXT4、exFAT 和 E...
日期:06-03
百度热力图怎么看_百度“热力图”上线数日受站长热捧
  春节新过,于1月10日正式上线的百度统计热力图功能,却在年前仅仅数日,就在站长群体中掀起了轩然大波。一些站长竞相争抢测试“邀请码”,不仅因为该功能完全免费,更重要的是,热...
日期:07-26
北京市长与小米阿里等负责人座谈 加强核心技术攻关
日前,市委副书记、市长殷勇分别与小米集团创始人、董事长兼首席执行官雷军,阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团董事长兼首席执行官张勇,小马智行科技有限公司...
日期:07-25
小区单元门人脸识别「业主拒绝进单元门人脸识别起诉物业 后者被判删除面部信息」
11月15日 消息:据宁波镇海法院消息,原告余某某系镇海某小区住户,该小区原未设立单元门禁,于今年初安装了“人脸识别”开门系统。余某某作为住户,物业采集了他的面部特征信息。ip...
日期:11-16
中国市值排名第一企业「世界前十唯一的中国企业 市值仍腰斩」
凤凰网科技讯 北京时间1月5日消息,外媒编制的数据显示,周三的股价大涨让腾讯控股公司超越了石油巨头埃克森美孚,在6个月后重新进入了世界前十大最具价值的公司行列,位居第十位。...
日期:01-05
支付宝用户莫名“被捐款” 回应称用户设置有误_支付宝捐款了别人看得到吗
  近日,有用户发帖称,自己的支付宝(微博)账户内无故失去六千多元,经查“从9月26日开始,莫名其妙地一笔一笔被捐到了‘绿化基金会’”。这名人士称,在网上一搜“支付宝用户被捐...
日期:07-24