您的位置:首页 > 互联网

谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强_google vision api

发布时间:2023-10-18 11:13:19  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),编辑:杜伟、陈萍,授权转载发布。

在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。

华硕碉堡t20怎么样

vivo要出x60了吗

在大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更小规模的模型仍然很重要,它们更易于训练和服务,更加环境友好,并为模型设计提供更快的研究周期。

在该领域,谷歌研究院在去年推出了一个名为PaLI(Pathways Language and Image)的模型。作为一个多模态大模型,PaLI 的关键结构之一是复用大型单模态基干进行语言和视觉建模,在语言方面复用13B 参数的 mT5-XXL,在视觉方面复用2B 参数的 ViT-G 和4B 参数的 ViT-e。当时 PaLI 实现了优于多数新旧模型的性能。

此后谷歌继续专注于更小规模的建模,并于近日提出 PaLI-3,这是 PaLI 系列的第三代模型。通过一个仅有5B 参数的预训练基线模型,他们优化了训练方法,并在多个 VLM 基准上实现了有竞争力以及新的 SOTA 结果。

该方法主要由三部分组成,分别是在 web 规模的图像文本数据上对图像编码器的对比预训练、用于 PaLI 多模态训练的改进后的混合数据集,以及更高分辨率的训练。

作者来自谷歌研究院、谷歌DeepMind和谷歌云。

论文地址:https://arxiv.org/pdf/2310.09199.pdf

下图为5B PaLI-3模型概览,其中通过对比预训练的2B SigLIP 视觉模型,图像被单独地编码成了视觉 token。接着与 query 一起,这些视觉 token 被传递给了3B 编码器 - 解码器结构的 UL2Transformer,它生成了预期答案。在这样的设置下,与之前 PaLI 模型中单个分类预训练的模型,对比预训练的模型提供了明显更有用的 token。

效果怎么样呢?PaLI-3在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA,包括 RefCOCO 数据集上的8个视觉定位文本理解任务和参考表达分割任务。PaLI-3也在一系列分类视觉任务上有出色的表现。

此外研究者还专门做了消融实验以与分类预训练的 ViT 基线模型比较,并进一步确认了预训练视觉编码器在有噪声 web 规模的图像文本数据上的可行性,从而成为在分类数据上进行训练的优先替代方案。

除了5B PaLI-3模型之外,研究者还利用最近提出的 SigLIP 方法,构建了一个参数扩展到2B 的 SOTA 多语言对比视觉模型。

模型介绍

架构

在更高的层面,PaLI-3的架构遵循了 Chen et al. (2023b;a):ViT 模型将图像编码为 token,并与问题、提示和指令等文本输入一起被传递到编码器 - 解码器结构的 transformer,从而生成文本输出。

先看视觉组件。研究者使用 SigLIP 训练方法,从对比预训练的 ViT-G/14模型(参数约为2B)初始化出 PaLI-3的视觉基干。简而言之,他们训练了图像嵌入 ViT-G/14模型和文本嵌入 transformer 模型来分别嵌入图像和文本,这样一来,使用图像和文本嵌入点积的 sigmoid 交叉熵的二元分类器,能够准确地分类各自的图像和文本是否相互对应。

这类似于 CLIP 和 ALIGN,但更加高效、可扩展和稳健。同时这种方法是为了预训练 ViT 图像嵌入组件,因此当将 ViT 插入到 PaLI 时,文本嵌入 transformer 会被丢弃。

再来看完整的 PaLI 模型。ViT 图像编码器的输出在池化之前形成了视觉 token,并线性地映射和添加到嵌入的输入文本 token。接着这些 token 被传递到了预训练的3B UL2编码器 - 解码器模型,从而生成文本输出。该模型的文本输入通常包含有描述任务类型的提示,并为该任务编码必要的文本输入。

训练

训练过程包含多个阶段。

阶段0:单峰预训练。图像编码器按照 SigLIP 训练协议,图像编码器的训练分辨率为224×224;文本编码器 - 解码器是一个3B UL2模型,按照 Tay 等人描述的混合降噪程序进行训练。

阶段1:多模态训练。将图像编码器与文本编码器 - 解码器相结合,然后,将这个组合得到的 PaLI 模型在多模态任务和数据上进行训练,此时,图像编码器保持冻结,分辨率还是224×224。通过对文本质量进行启发式过滤,并使用 SplitCap 训练目标,再次从 WebLI 数据集派生出主要的混合组件。

阶段2:提升分辨率。高分辨率输入是一种被广泛接受的提高性能的方法,这既是因为可以感知图像中的更多细节,也是因为通过增加序列长度来提高模型能力。本文通过解冻图像编码器来提高 PaLI-3的分辨率,将检查点保持在812×812和1064×1064分辨率。

任务迁移。最后,对于每个单独的任务(基准),本文使用冻结的 ViT 图像编码器在任务的训练数据上微调 PaLI-3模型;对于大多数任务,本文微调812×812分辨率检查点,但对于两个文档理解任务,本文将分辨率提高到1064×1064。

实验及结果

实验首先比较了在 PaLI 框架下不同 ViT 模型的结果对比,研究者考虑了两种 ViT 模型:Classif 和 SigLIP。

结果如表1所示,表明虽然 SigLIP 模型的少样本线性分类有些落后,但通过使用 PaLI-3,SigLIP 模型在更简单的任务上(例如字幕和问答)提供了适度的增益,并且在更复杂的场景即文本和空间理解任务上取得了巨大增益。

此外,研究者还在 TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words、 WidgetCap 数据集上评估了 PaLI-3。结果如表2所示,在使用外部 OCR 系统的情况下,PaLI-3仅比 SOTA 方法低0.7分。然而,在没有这种外部系统的情况下,PaLI-3比所有 SOTA 方法的组合高出4.4分。对于 TextCaps、TextVQA、InfographicVQA 和 DocVQA,PaLI-3的优势超多8分甚至更多。

参考表达分割

研究者扩展了 PaLI-3,使其能够通过类语言输出来预测分割掩码。为此,他们利用了 Ning et al. (2023) 的向量量化变分自编码器(VQ-VAE)。VQ-VAE 经过训练可以学习128个掩码 token,其编码器可以将64×64像素的分割掩码标记为16个掩码 token,解码器可以转换回来。

研究者训练 PaLI-3来预测单个分割掩码,首先输出4个坐标作为文本,并表示为边界框。接着是16个掩码 token,表示边界框内的掩码。

表1表明对于此类定位任务,对比预训练比分类预训练更有效。下表3显示,完整的 PaLI-3模型在参考表达分割方面略微优于现有技术。

图像理解

接下来研究者在一般视觉语言理解任务上评估了 PaLI-3。与之前的工作一样,他们没有使用外部 OCR 模块,因为这些基准测试很少涉及图像中的文本。

结果表明,与最近的 SOTA 模型相比,PaLI-3的尺寸要小得多,但它在这些基准测试中表现出了非常强大的性能。对于 COCO,PaLI-3优于除 BEiT-3以及17B 和55B PaLI 之外的所有模型。在 VQAv2和 TallyQA 上,PaLI-3超过了除 PaLI-X 之外的所有先前模型。对于 OKVQA 任务,PaLI-3仅落后于 PaLM-E (562B) 和 PaLI-X (55B),但仍然优于32-shot Flamingo (80B) 模型。

视频字幕和问答

该研究在4个视频字幕基准上对 PaLI-3模型进行了微调和评估:MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。此外,该研究在3个视频问答基准上进行了同样的操作:NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。

尽管没有使用视频数据进行预训练,PaLI-3仍以较小的模型尺寸实现了出色的视频 QA 结果:在 MSR-VTT-QA 和 ActivityNet-QA 上实现了最先进的性能,并在 NextQA 上取得了具有竞争力的结果。在图像和视频 QA 上的持续改进凸显了采用对比 ViT 的好处。

此外,PaLI-3还取得了非常好的视频字幕结果,平均仅比 SOTA 结果低3个 CIDEr 点。考虑到模型尺寸,PaLI-3在性能和实用性方面似乎都是一个绝佳的选择。

google clips is designed

直接图像编码器评估

研究者还评估了 ViT-G 模型,ViT-G 可以理解为不是完整的 PaLI-3,结果如表6所示。

首先,该研究使用标准的 ImageNet 基准测试及其两个最流行的变体来测试图像分类功能。结果表明,SigLIP 在 top-1和 v2准确率方面略有落后,但在 ReaL 方面结果相当。

其次,该研究报告了不同模型在 Crossmodal-3600基准上的结果。结果表明 SigLIP ViT-G 模型明显优于较大的 ViT-e 模型。

googleplat

最后,该研究还报告了线性 probing 结果,结果表明 SigLIP 不及其他模型。

表7和表8评估了模型的公平性、偏差和其他潜在问题。


返回网站首页

本文评论
天猫双11:已有超100万商家确定投入计划_双11天猫金额
10月14日消息,10月24日晚8点,2023天猫双11将正式开始预售。iPhone 13 Pro概念渲染阿里妈妈统计显示,截至目前已有超100万个品牌及商家已经确定了双11期间的投入计划,同比往期更...
日期:10-15
这是 Instagram 最失败、最短命的一次尝试_instagram崩溃
解释最新科技进展,报道硅谷大事小情从一个足以载入史册的现象级产品,IG 已经失去了所有的独特性,沦落为一个蹩脚的抄袭者。文|杜晨 编辑|VickyXiao 题图来源:Tati Bruening在业绩...
日期:09-06
Redmi Note 13 Pro官宣搭载第二代骁龙7s处理器「红米note3的处理器相当于骁龙什么处理器」
9月15日 消息:Redmi Note13系列将于9月21日对外发布。Redmi Note13Pro将搭载高通的第二代骁龙7s处理器,该处理器采用先进的4纳米旗舰制程工艺,主频高达2.4GHz,能够在性能、影像...
日期:09-15
海信公布新风空调X7柜机跑分成绩,全方位吊打对手!_海信x730空调
  (原标题:海信公布新风空调X7柜机跑分成绩,全方位吊打对手!)   新风空调哪家强?7月22日晚,海信空调在青岛举办了夏季全球发布会暨战略伙伴云峰会。发布会上,海信公布了刚...
日期:07-14
iphone 13 pro max 256G「消息称苹果iPhone 14 Pro/Pro Max手机256GB存储起步」
IT之家 8 月 11 日消息,今天早些时候,分析师郭明錤声称苹果 iPhone 14 Pro 机型将比 iPhone 13 Pro 机型更贵。郭明錤没有透露确切的售价,但他表示所有四款 iPhone 14 机型平均...
日期:09-03
迅雷市值翻倍「迅雷:第二季度营收7830万美元 同比增长41.9%」
  讯8月16日晚间消息,今日,迅雷公布了截至2022年6月30日第二季度未经审计的财报。据财报显示,迅雷第二季度总营收为7,830万美元,同比增长41.9%,符合预期收入指引。基于通用会计...
日期:10-07
俄罗斯半导体产业_中国台湾地区收紧对俄罗斯半导体设备等 57 类产品出口限制
  4 月 6 日,据路透社报道,中国台湾地区政府周三表示,其将加强对俄罗斯的出口限制,并具体规定禁止将技术和芯片用于军事目的。   报道称,中国台湾地区已经加入了西方主导的...
日期:07-18
女子连续9个月被推送墓地广告:母亲受惊吓去世
如今这个时代,收到各种骚扰电话、垃圾短信、推送广告已经让很多人麻木了,但有些广告实在闹心。据媒体报道,武汉的李女士就遇到了一件烦心事,连续9个月之久,不管什么时候,只要打开...
日期:05-11
独家对话华创资本熊伟铭,还有什么AI项目值得关注和投资?「熊伟持股」
声明:本文来自于微信公众号 凤凰网科技(ID:ifeng_tech),作者:刘毓坤,授权转载发布。第三届BEYOND国际科技创新博览会在澳门威尼斯人金光会展中心正式开幕,在此期间,凤凰网科技《AI前...
日期:05-17
爱奇艺高管解读Q2财报:《苍兰诀》等剧在暑期热播,对Q3会员数和金额都乐观
  相关新闻:  爱奇艺第二季度营收66.6亿元,同比下滑13%  讯 北京时间8月30日晚间消息,爱奇艺(Nasdaq:IQ)今日发布了截至6月30日的2022年第二季度财报。财报显示,爱奇艺第二季...
日期:08-31
三星2014年手机「三星2014」
:一年重大事件2014年是三星集团的重要一年。这家韩国电子制造商在过去12个月里推出了一系列备受瞩目的产品,并在全球范围内推出了许多市场营销计划。下面是年的一些重要事件回...
日期:05-31
雷军告别《魔兽世界》:18年前就玩了 感慨万千 再见艾泽拉斯
1月24日零点,随着合约到期,网易代理的《魔兽世界》国服正式关闭。小米雷军今天也专门发文纪念这一时刻:朋友今天给我发了一张截图,18年前我们在魔兽游戏里的截图,感慨万千。再见,...
日期:01-25
多地出现流行病鹦鹉热患者 专家发声:人传人很罕见_鹦鹉热病最新消息
春季一般都是传染病的高发季,除了流感尤其是甲流,近期我国一些地方又出现了传染性的鹦鹉热,会导致咳嗽、发热、肺部感染等症状,与新冠、流感高度相似。对此,国家感染性疾病临床研...
日期:04-02
B站发布36部纪录片作品,《人生一串4》等IP作品回归_b站值得一看的纪录片
5月11日消息,10日,哔哩哔哩(以下简称“B站”)第二届纪录片发布会上对外发布了36部纪录片作品,并发起“探照灯计划”与“恒星计划”两大计划,持续打造优质纪录片内容,挖掘更多的创作...
日期:05-11
微信上线付费阅读9个月后,平均单篇文章收入133元!| 中国微信500强月报(2020.09)
本期看点:500强平均单篇在看数为463.4次,连续7月下降;“白富美妖姐” 首夺升幅榜桂冠; 新面孔“小茂说”加入全“10000+”阵营;“橘子娱乐”新晋原创榜冠军;“洞见”8篇内容...
日期:08-01
抖音产品负责人王京津离职_抖音官方高管
  来源:新言财经  文/陈桥辉ipad pro会用mac os吗  Tech星球从多个独立信源处获悉,抖音产品负责人Seven(王京津)已于近期离职。目前,在字节的内部组织架构系统中,已经查不到...
日期:09-05
理想汽车申请充电站商标「理想电动车充电」
11月24日 消息:企查查APP显示,近日,理想汽车关联公司北京车和家信息技术有限公司申请注册多个“理想超级充电站”商标,国际分类包括运输工具、科学仪器等,当前商标状态均为注册...
日期:11-29
美团第二季度新业务收入142亿元 同比增长40.7%「美团季度营收」
查看最新行情   讯 8月26日下午消息,美团今日发布2022年第二季度财报,财报显示,该公司第二季度营收509.4亿元,同比增长16.4%。净亏损11.2亿元,同比收窄67%...
日期:08-27
硬核军事风!Garmin Instict战术手表正式就位
  对很多来说,每天思考自己的背包里需要带哪些东西,是一个和“午餐吃什么”同样令人纠结的问题。尤其作为战术装备爱好者,不少朋友会把寻求自己自己满意又能彰显个人气质...
日期:06-16
比1.4T更强更省油!新款大众朗逸曝光:配全新1.5T发动机_大众新朗逸1.5l和1.4t哪个性价比高
近日,一汽-大众朗逸在工信部进行了申报,其最大的亮点在于换装了大众集团最新的1.5T四缸机,尾标300TSI。汪小菲投资的小鹏汽车上市外观方面依旧维持原来的设计,前脸拥有较宽的横...
日期:10-17