您的位置:首页 > 互联网

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩

发布时间:2024-06-03 14:58:28  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。

能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展(将多模态表征转换为离散 token 并添加到模型的基本词汇表中)来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。

多模态预训练方法具有很强的性能优势(例如,一个模型可以原生理解多种模态),但也有缺点。例如,无法解决如何在预训练后添加新模态的问题,也缺乏灵活性,因为添加另一种模态需要从头开始训练一个新的模型,并进行超参数搜索,以获得模态之间的最佳训练数据混合比。因此,这种解决方案不适合小众模态,特别是 IMU、蛋白质序列等。

或者,将词汇扩展到另一种模态可以在一个从未见过该模态的模型上进行预训练后进行。只在文本模态下训练的解码器模型可以在上下文中遵循指令并从样本中学习,通常是通过微调将另一种模态(如音频或图像功能)嫁接到现有的强大文本骨干上,以利用文本模态的可表达性和人类用户的可控性。这样做的缺点是骨干网络的文本到文本功能会被破坏,由此产生的模型只能执行其经过微调的跨模态任务。

总体来说,无论是预训练还是微调,都需要大量对齐的跨模态数据,因此这两种方法都不适用于没有足够数量以对齐多模态数据的模态。

Google DeepMind 近期提出了模块化设计的新型架构 Zipper,它由多个单模态预训练解码器模型组成。利用丰富的无监督单模态数据,Zipper 可以在单一模态中预训练强大的纯解码器模型,然后利用交叉注意力将多个这样的预训练解码器压缩在一起,并利用有限的跨模态数据进行微调,实现多模态生成能力。预训练的纯解码器模型可以在新的多模态组合中灵活地重复使用和再利用。

  • 论文标题:Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

  • 论文链接:https://arxiv.org/pdf/2405.18669

这是第一项研究灵活组合模态的工作,通过组合单独预训练的单模态解码器来实现多模态生成能力。

虽然 Zipper 架构可在多种模态和两种以上模态的骨干上通用,但这项工作的重点放在了仅融合两种骨干(语音和文本)的实验设置上。论文展示了 Zipper 在同时跨模态生成文本(自动语音识别(ASR)任务)和语音(文本到语音任务(TTS))方面的强大能力。

雷军看周鸿祎的眼神

仅使用部分文本 - 语音对齐数据(低至原始数据的1%)进行的实验表明,首先在无标记数据上对骨干进行单模态预训练,与使用词汇扩展方法进行微调相比,Zipper 可以依赖更少的对齐数据,这为使用解码器 - 解码器架构融合模态提供了可能性,对于成对数据量有限的生成任务非常有用。

接下来,让我们看看论文细节。

模型

Zipper 架构由两个自回归解码器 tower(或主干)组成,它们通过门控交叉注意力层压缩在一起。每个骨干使用下一个 token 预测功能分别对单个模态进行训练。

图1显示了 Zipper 架构的概览。与 CALM 类似,在解码器骨干之间的每 i 层都插入了交叉注意力层。在这些有规律交错的层中,一种模态的表征被交叉注意力到另一种模态中。这与 Flamingo [4] 编码器 - 解码器设置不同,后者只在一个 tower(编码器)的最后一层定期交叉注意力到另一个 tower(解码器)的各层。

在交叉注意力过程中,投影层被插入模态之间。从功能上讲,这可以均衡骨干之间的嵌入维度大小差异。从语义上讲,它还能实现从一种模态到另一种模态的表征转换,尤其是当一个或两个骨干被冻结时。此外,在每个骨干网的输入嵌入之后,还直接加入了一个非线性输入投影层,以便更好地调整输入的单模态表征,用于多模态任务。

在第一个 Transformer 块之前(嵌入层之后),插入两个可学习的多层感知器(MLP)投影,然后对每个骨干进行 ReLU 转换:

这样做是为了让单模态表征更好地适应多模态设置。

让 i_A 和 i_B 分别代表 A 层交叉到 B 层和 B 层交叉到 A 层的间隔。将 k 层单模解码器 A 的隐藏表征法称为

,其中 d_A 是 transformer A 的隐藏维度;同样,将 l 层单模解码器 B 的隐藏表征法称为

,其中 d_B 是 transformer B 的相应隐藏维度。设 fcross (Q, K, V ) 是来自 [4] 的门控交叉注意力层,其后是前馈层,Q、K、V 分别是查询、键和值。让

360上市a股发行价

分别代表 tower A 和 tower B 的线性前馈投影和全连接投影。

解码器 A 中第 k 层的新表征

具体如下:

同样,解码器 B 第 l 层的新表征

为:

幻兽帕鲁多少钱

最后,每个 tower 以一个 softmax 层(与同 tower 嵌入层共享)结束,以便利用下一个 token 预测任务将隐藏表征投射到(特定模态 /tower)token 词汇的概率分布中。

研究者将交叉注意力机制用于交错序列的自动回归训练,具体做法是只交叉关注原始线性序列中当前位置之前的另一种模态的数据。

在解码过程中,输出模态的序列是指定的(例如,[语音]、[文本]、[文本、语音])。模型以序列中的第一种模态生成输出,直到遇到特殊的句末 token,这时才会切换到序列中的下一种模态。该过程一直持续到序列中的所有模态都被解码为止。虽然可以扩展模型自动选择输出生成的模态,但这一设置的通用化还需要后续的工作。

实验

奈飞中国招聘

虽然 Zipper 可以扩展到任意数量的模态,研究者率先评估了语音到文本生成和文本到语音(TTS)生成的自动语音识别(ASR)。

值得注意的是,虽然对 TTS 系统(合成语音)的标准评估依赖于人类反馈(平均意见分数),可以捕捉到语音的许多整体方面(如文本保真度和声音质量等),但这里的 TTS 评估只希望捕捉到架构选择对语义 token 建模和预测能力的影响。

表1列出了 ASR 任务的测试结果:

将 Zipper 与扩展词汇量的单解码器基线进行比较时,可以发现 Zipper 在 test-clean 子集上的性能略好,而在噪音较高的语音 test-other 子集上的性能则略有下降,总体性能相当接近。

表2列出了在 LibriTTS 数据集的 test-clean 分割上进行 TTS 任务的结果。

可以看出,Zipper 模型明显优于单解码器模型,Zipper S/128M unfrozen model 模型提高了13个 WER 点(相对误差减少40%),Zipper L/1B unfrozen model 模型提高了12个 WER 点(相对误差减少38%)。

研究者还观察到,与使用冻结骨干网络相比,在训练过程中解冻语音骨干网络可持续改善所有尺寸 Zipper 模型的性能,这验证了直觉 —— 微调语音骨干网络的参数比仅依赖交叉注意力产生的模态对齐效果更好。

更多研究细节,可参考原论文。


返回网站首页

本文评论
电子“舌头”来了!AI也能品尝美食了?_电子舌的作用是什么
文章概要:1. 宾夕法尼亚州立大学的研究团队开发了一种基于石墨烯的电子感应器,可以“品味”甜和咸等味道,为人工情感智能铺平了道路。2. 研究关注如何将情感智能引入人工智能...
日期:10-08
完美视频大全下架了?当贝市场分享更实用的影视app_完美视频大全下架了吗
  众所周知,完美视频大全被用户称为最好用的视频软件,这得益于其完全免费的影视资源。但是最近有不少用户反馈,在当贝市场中已经搜不到完美视频大全了。如何找到一款能够...
日期:01-28
钱客多助力“浑南之夏”主题夜市开启刷脸支付
  提到夏夜,人们会想的词:撸串、夜市、冰啤酒、燃……在沈阳,这个夏天最火热的,当属斥资1800万打造的主题夜市“浑南之夏” 文化艺术嘉年华,包括了企业之夜、网红天地、美食街...
日期:07-14
2023年做小红书必备的10个模型_2023年做小红书必备的10个模型有哪些
声明:本文来自于微信公众号 晏涛三寿(ID:yantao-219),作者:晏涛,授权转载发布。近年来,营销模式迅速迭代,「种草」已从一种创新营销成为一种更为普遍且广受欢迎的营销形式,小红书便...
日期:12-23
王一博电影《长空之王》票房破2亿霸榜五一档:网友直呼歼20太帅
4月30日消息,据猫眼专业版数据,电影《长空之王》上映第三天,票房已突破2亿元,位居2023五一档新片票房榜第一,强势领跑。一些观影的网友表示:太燃了,中国的歼20简直太帅了”歼20升空...
日期:04-30
fbi破解苹果手机_安全专家:FBI有能力解锁嫌疑人iPhone 5/7,无需苹果提供帮助
  北京时间1月15日上午消息,据国外媒体报道,当前FBI正在对苹果进行施压,要求该公司为其提供协助,从而解锁一名恐怖分子的iPhone。但是来自数字安全领域的专家表示,美国政府有...
日期:01-09
应对疫情,粉笔网武汉地区停止招生,线下未开课程全国可退
  近日,新型肺炎疫情的爆发引发社会各界的关注,在这全国人民共同抗击疫情的非常时刻,粉笔网发布声明,为最大限度的减少疫情传播,决定全面暂停武汉地区线下班招生,并且在全国范...
日期:10-11
新茶饮2023:茶底革命扯掉旧王冠_新茶饮定义
声明:本文来自于微信公众号 新熵(ID:xinshangxz),作者:古廿,授权转载发布。新茶饮永不眠。喜茶和奈雪的巨头之争未休,今年又迎来了新王。根据第三方数据显示,截至11月份国内市场上霸...
日期:12-16
亚马逊推出AI新工具,吸引几千家企业试用Bedrock_亚马逊api功能介绍
7月27日消息,亚马逊高管表示,云计算部门已经吸引到几千名客户试用人工智能服务Bedrock,公司与微软和谷歌在人工智能关键领域展开竞争。周三,亚马逊还宣布推出了一些新的人工智能...
日期:07-27
​由OpenAI支持的机器人公司1X获得1亿美元投资 计划推家庭服务机器人
**划重点:**1. 高德打车特价车开放时间小米真无线降噪耳机3 Pro空间音频...
日期:01-12
支付宝消息可挂载4大私域增长工具 唐久便利接入后群用户量增长两倍
5月31日 消息:据“支付宝开放平台”公众号信息,支付宝消息能力最新升级,升级后商家通过“消息盒子”向用户推送消息时,可以挂载小程序相关服务,比如酒店可在向用户推送的支付或...
日期:05-31
29岁博士因社恐1月叫2次救护车 极度恐惧不敢动:医生科普要学会放松
近日,广东深圳,29岁男子小钟(化名)突感心慌、极度恐惧不敢乱动,1个月叫了2次救护车。经多科室检查,排除躯体及大脑器质性问题,他又挂了临床心理科。早教机构退费难经了解,小钟来自农...
日期:11-14
快手电商宣布上线客服举报功能2.0_快手电商投诉
10月31日 消息:近日,快手电商宣布平台上线了客服举报功能,虽然举报成功后违规账号将被禁言72小时,但禁言失效后,仍受到持续骚扰,现结合商家的诉求,对举报功能做了2.0的升级。华为m...
日期:11-05
兰洋科技入选2023年算力实力榜“算力应用案例十大标杆”_兰洋科技主机
通信世界网消息(CWW)6月4日,2023年中国国际信息通信展,由工业和信息化部主管的信息通信领域权威媒体通信世界全媒体发起的“2023年算力实力榜”评选活动奖项揭晓,兰洋(宁波)科技有...
日期:06-06
“上四休三”会成趋势吗?专家:全球尚未形成一致趋势「上四休四是什么意思」
6月17日消息,微博话题你觉得上四休三会成趋势吗”引发热议。在专家看来,上四休三”及混合办公”还是国内企业的个别现象,主要原因与社会经济发展相关。腾讯涨薪速度网页下载的m...
日期:06-18
百度透露618将在四川直播带货, 5家企业市值应声上涨133亿
  618电商节在即,直播带货无疑是今年618的最大看点,各大电商平台“扎堆”直播间,也为企业带来新的增长空间,除了带货层面,资本市场也闻风而动,据悉,百度618助力“被带货”企业市...
日期:07-14
划重点:微粒贷暂无APP!手把手教你找到微粒贷入口_微粒贷入口怎么消失了
近来,又有骗子用假冒“微粒贷APP”行骗,一些人不明真相,一不小心就上当受骗,造成经济损失。需要注意的是,官方一直在强调微粒贷暂无APP!当前市面上出现的“微粒贷APP”都是诈骗软...
日期:06-09
中国电信5G统一DPI设备集采:华为、上海欣诺、恒安嘉新三家中标_中国电信dpi集采结果
2023/5/29 10:26 中国电信5G统一DPI设备集采:华为、上海欣诺、恒安嘉新三家中标  焦焦 ...
日期:06-02
索尼发布新款高清激光投影机:7000流明 支持4K/60p输入_6500流明高清投影机
10月12日,索尼发布两款紧凑型WUXGA 3LCD激光投影机VPL-P630HZ 和VPL-P530HZ,具有高亮度,灵活的安装性和优秀的操作性能,将于2022年11月上市。NASA重返月球新进展其中,VPL-P630HZ...
日期:10-13
iqooneo855支不支持wifi6「网速稳了!iQOO Neo8系列手机将支持Wi-Fi 7」
iQOO Neo8系列手机将于5月23日发布,全系搭载自研V1 芯片,支持144Hz高刷新率。最新官方消息显示,iQOO Neo8系列手机还将支持新一代Wi-Fi 7标准,理论带宽更高,无线速率可达3.6Gbps,...
日期:05-16