您的位置:首页 > 互联网

1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强

发布时间:2023-10-28 15:15:19  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

谷歌研究院和DeepMind研究人员推出最新PaLI-3视觉语言模型(VLM),模型以更小、更快、更强的特点获得大部分研究人员青睐,在诸多任务中达到SOTA。

最近,堪称改变游戏规则的视觉语言模型(VLM)PaLI-3问世,引得大量科研人员关注。

PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。

PaLI是谷歌去年推出的多模态大模型。谷歌通过研究对比预训练方法,在PaLI基础上大大提升了PaLI-3的性能。

而PaLI-3仅拥有5B的参数量,在定位和文本理解等任务中表现出色,刷新了多个SOTA。

论文地址:https://arxiv.org/abs/2310.09199?ref=emergentmind

众寡悬殊的意思和造句

该模型利用VIT-G14作为图像编码器,拥有2B参数的多模态对比视觉模型。

在人工智能圈,PaLI-3重新定义了成功,较小规模模型以实用性和效率赢得了大部分人的青睐。

人工智能与视觉语言模型

在快节奏的人工智能世界中,视觉语言模型已成为变革型技术,其技术的发展,不断地模糊了图像理解与文本理解的之间的界限。

Google AI的PaLI-3提供了一种紧凑而强大的替代方案,以其强大的性能和1/10的参数与其他模型正面硬刚,有希望彻底改变视觉语言的发展。

PaLI-3将自然语言理解和图像识别能力完美地融合,是AI创新的先锋。

就像OpenAI的CLIP和Google的BigGAN一样,这些具有文本描述、解码图像卓越能力的模型,解锁了计算机视觉、内容生成和人机交互等众多应用。

这使得它们成为人们关注的焦点,成为推动科学研究、商业发展的核心力量。

而PaLI-3的成功归功于Google Research、Google DeepMind和Google Cloud的共同努力。

研究人员采用了一种新颖的对比预训练方法,深度探索了VIT的潜力,并在多语言模态检索中达到了SOTA,凸显出基于SigLIP的PaLI-3等模型在定位和文本理解任务的优越性。

扩大的实用性

虽然大模型的涌现能力、对更大模型的追求往往主导着人工智能的讨论,但是谷歌的研究强调了较小规模模型在实际应用和高效研究的价值。

PaLI-3登场了,它是一个拥有50亿参数的VLM,性能远超其体量。

PaLI-3的训练过程结合了图像编码器在不同数据集上的对比预训练,分别是网络规模数据、增强混合的数据集和高分辨率数据。

具有20亿参数量多语言对比模型占据了人工智能的中心舞台,在需要空间注意力和视觉文本对齐方面,该模型证明了对比预训练模型的主导地位。

解剖PaLI-3

那么,PaLI-3的内部结构是什么样的呢?它用到了什么方法?使用了哪种架构?

首先,PaLI-3利用预先训练的VIT-G14作为图像编码器,严格遵循SigLIP的训练方法,其中VIT-G14的20亿参数是PaLI-3的基石。

安卓新版Firefox插件

对比预训练是关键,首先对图像和文本嵌入(Embedding),然后在特征层面关联。

进而,将视觉和文本的特征合并起来,输入到30亿参数的UL2编码-解码器语言模型中,以实现精确的文本生成,或用于特征任务的查询提升,例如视觉问答(VQA)。

在Benchmark上的卓越性能

总体评述

在VLM领域,相比同期其他模型,PaLI-3脱颖而出,尤其在定位和视觉文本理解等任务取得非常好的性能表现。

其基于SigLIP的图像编码器预训练方法,开创了多语言跨模态检索的新时代。

PaLI-3在引用表达、分割方法表现出色,在不同的检测任务子组中保持卓越的准确性。

而值得注意的是,对比预训练是定位首选方法,该方法增强了模型的表征能力。

ViT-G图像编码器是PaLI-3的组成部分,在多种分类和跨模态检索场景中表现出了非凡的能力。

具体指标

具体地,论文汇报了PaLI-3在各个任务、数据集上的结果。

上图是在 PaLI-3框架内比较了两种类型的 ViT 模型,一种在JFT数据集上进行分类预训练,另一种使用SigLIP在 WebLI数据集上进行对比预训练。结果表明,虽然SigLIP模型在少样本线性分类方面落后,但它们在PaLI-3框架中的Caption、TextVQA 和 RefCOCO 等更复杂的任务中表现出色。

无论有或没有外部OCR输入,该模型在大多数基准测试中都显示出最先进的性能。并在无需外部OCR系统的任务中尤其出色。

PaLI-3在参考语义表达上使用VQ-VAE方法预测分割掩模。该模型经过训练来预测边界框,然后预测代表框内掩码的掩码标记。结果表明,对于此类任务,对比预训练比分类预训练更有效。

除此之外,PaLI-3在视频字幕和视频问答基准上进行了微调和评估。尽管没有使用视频数据进行预训练,PaLI-3仍取得了出色的结果(几个 SOTA),凸显了采用对比ViT的好处。

模型公平性、偏见和其他潜在问题

根据论文提供的结果,其方法在所有数据切片的毒性和脏话水平都较低,与PaLI-X模型相当。发现所有子组的错误率都非常低。

且在使用MIAP数据集的检测任务中,发现所有子组的错误率都非常低。

目前,PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIP Base、Large和So400M模型。模型链接在huggingface中(https://huggingface.co/models?other=siglip)

感兴趣的小伙伴赶快试一试吧!

参考资料:

https://medium.com/@multiplatform.ai/pali-3-a-game-changing-vision-language-model-unveiled-13479bdf6eb5

https://the-decoder.com/googles-new-pali-3-vision-language-model-achieves-performance-of-10x-larger-models/


返回网站首页

本文评论
一加12Pro再次突破,新一代性能怪兽,影像有惊喜_一加 12
有多少用户在使用一加手机?下方举手集合!一加手机很独特,与OPPO颇有渊源,其创始人就是从OPPO出来的,早期主打海外市场,在国内并不常见,其风格与三星相似,氢OS相当纯净,影像实力出众。...
日期:07-12
成都小学生推翻教材“标准”答案:灵魂拷问一副三角尺能不能画出165°?
利用一副小学生常用的三角尺,能画出165的角吗?官方教师用书上给的标准”答案里,并没有这个选项,那么,是相信答案,还是大胆质疑并探索求证?近日,四川天府新区华阳小学两名四年级学生...
日期:10-30
天猫双11今晚8点开启购物狂欢,推出三场红包雨最高可抢1111元_天猫双11红包入口
天猫双11购物节将于今晚8点正式开启。本届双11,天猫推出了多项优惠活动,包括满300减50、官方立减直降、88VIP大额优惠券等。其中最令人瞩目的是,新增的三场红包雨活动,通过手机...
日期:11-01
一级应急响应!“杜苏芮”再次升级超强台风:台风等级你了解吗?
7月27日消息,据中国气象局官网,中国气象局提升台风应急响应为一级,今年第5号台风杜苏芮”今天下午由强台风级加强为超强台风级。下午17:00其中心位于福建厦门南偏东方向大约360...
日期:07-27
魅族21即将发布 将以 1.74mm 挑战全球最窄下边框_魅族28
星纪魅族集团今日宣布,即将发布的魅族 21 手机将以全球最窄手机下边框设计挑战 1.74mm。此次突破性的设计背后,是魅族在工艺层面上的一次革命性创新,象征着对极致用户体验的不...
日期:11-14
「夜景、闪光灯等摄影场景仍需1200万像素 「iPhone」-15新增JPEG Max选项」
来源:中关村在线华为watch2更新鸿蒙小米集团股份近日,消息人士Steve Moser在其社交平台账号上透露,苹果在iPhone 15和iPhone 15 Pro系列中新增了JPEG Max选项,同时将该功能下放...
日期:09-15
苹果iPhone 15 Pro机型再曝光:因技术不过关放弃一重要升级_苹果15款pro值得买吗
据供应链透露的最新消息,iPhone 15 Pro系列取消了之前计划使用的固态按键,改回实体按键。不过,相较于传统机型,iPhone 15 Pro系列的音量键内部采用了双键设计,静音拨片被改成了Ac...
日期:04-15
再度携手佛山南海!阿里云举办广东工业智造大数据创新大赛_佛山市制造业创新中心
  近日,广东省人民政府联合阿里巴巴集团共同启动“广东工业智造大数据创新大赛”,大赛由广东省经济和信息化委员会、佛山市人民政府、阿里云计算有限公司承办,佛山市南海...
日期:02-11
索尼手机 xperia 5「安卓小屏之王!索尼Xperia 5 V曝光:无刘海无挖孔」
快科技7月26日消息,索尼Xperia 5 V宣传视频在社交平台上被泄露。如图所示,Xperia 5 V正面是无刘海、无挖孔的对称式全面屏设计,尺寸预计在6英寸左右,女生单手轻松掌控,是安卓阵营...
日期:07-26
爱奇艺客服回应HDMI连接被禁:部分视频版权保护严格「爱奇艺版权问题不能录屏」
  这一段时间,爱奇艺的日子应该并不好过,在上周被爆出将黄金会员电视投屏限制在了480P清晰度后,这周又有用户发现,它甚至连HDMI线连接电视播放都限制了。  有网友反馈称,自...
日期:01-16
钉钉宣布支持帐号多平台同时登录 最多支持15台设备同时在线
2月3日 消息:今日,钉钉官方宣布,钉钉支持一个账号同时多平台登录,最多有5部手机、5台电脑和5台iPad可以同时在线。吸尘器性价比高的品牌这样不管是设备之间互传文件,还是家长学...
日期:02-03
AVG 2011 SP1永久免费中文版正式发布,多项功能大幅改进
  近日,AVG官方面向全球正式发布AVG 2011 SP1版。此次,收费版和免费版同步升级,多项功能得到了改进和优化,推荐广大用户进行下载升级。接下来我们对新鲜出炉的免费版进行一下...
日期:07-27
推荐地下城「dnf怎么查看推荐地下城」
本文目录一览: 1、龙与地下城小说推荐?2、地下城搬砖刷哪个图最合适2023?3、dnf95级是指什么?4、DNF是什么? 龙与地下城小说推荐?推荐因为《龙与地下城》小说是一系列的英...
日期:06-02
ChatGPT用户不断“越狱”:用死亡威胁获得答案
凤凰网科技讯 北京时间2月7日消息,ChatGPT功能强大能回答用户很多问题,但ChatGPT的一些用户已经不满足如此,网友SessionGloomy发现创建一个提示,DAN(ChatGPT输入框)就可以用来绕过...
日期:02-07
人工智能时代了,我们为何还要“致匠心”?「为什么要人工智能」
又是一年端午时,如今人们对端午的关注点大都放在“吃什么味的粽子”和“假期去哪儿玩”,端午节成了名副其实的“舌尖上的节日”,佩香囊、挂雄黄袋等传统习俗早已被人淡忘。随着...
日期:06-23
消息人士透露索尼目标在23财年出货3000万台PlayStation 5_索尼营收2021
PlayStation 5是一台神话般的游戏机,发布至今似乎没有人能够得到,即使它的价位还在提高。然而,索尼似乎想通过在下一个财政年度销售更多的游戏机来解决这个问题。这一信息是由...
日期:10-15
电竞国家集训队集体亮相 网友:通通给我拿金牌!_国家电竞俱乐部
杭州将于2023年9月23日至10月8日举办第19届亚洲运动会。今年的亚运会与往年不同,因为电子竞技首次成为正式项目,这将吸引更多年轻人的关注。今天,腾讯电竞官方宣布杭州亚运会电...
日期:07-14
谷歌拟围绕“可视化、个性化”改革搜索引擎_谷歌 design
据界面新闻援引华尔街日报消息,谷歌将改变其展示搜索结果的方式,纳入与AI的对话以及更多短视频和社交媒体帖子。线上购物 直播带货据公司文件和知情人士说法,谷歌计划使其搜索...
日期:09-30
谷歌垄断案数月内出结果 或遭上百亿美元罚款_俄反垄断局:谷歌违反反垄断法被罚20亿卢布,须两月内支付
见习记者/杨阳   谷歌又被俄罗斯罚款了。   当地时间7月26日,俄罗斯联邦反垄断局(FAS)表示,因谷歌公司(Google)在俄罗斯违反反垄断法将被处以20亿卢布(约合2.35亿元人民币)的罚...
日期:07-31
男子拍到“两个太阳”藏在云层中 网友:今年这么热的原因找到了
7月9日消息,最近一段时间,全国多地经历高温天气,部分地区温度甚至超越了40C。近日,四川宜宾有网友拍到天空中出现两个太阳”的奇观,从视频看,太阳”一前一后藏在云层中,有网友调侃:...
日期:07-09