您的位置:首页 > 互联网

多模态代码「突破性技术!开源多模态模型—MiniGPT-5」

发布时间:2023-11-03 13:37:26  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域,但如何实现连贯的文本和相关图像是一个棘手的难题。

为了突破技术瓶颈,加州大学圣克鲁斯分校研发了MiniGPT-5模型,并提出了全新技术概念“Generative Vokens ",成为文本特征空间和图像特征空间之间的“桥梁”,实现了普通训练数据的有效对齐,同时生成高质量的文本和图像。

为了评估MiniGPT-5的效果,研究人员在多个数据集上进行了测试,包括CC3M、VIST和MMDialog。结果显示,MiniGPT-5在多个指标上都优于多个对比基线,能够生成连贯、高质量的文本和图像。

例如,在VIST数据集上,MiniGPT-5生成的图像CLIP分数高于fine-tunedStable Diffusion2; 在人类评估中,MiniGPT-5生成的语言连贯性更好(57.18%),图像质量更高(52.06%),多模态连贯性更强(57.62%)。

多模态设计

在MMDialog数据集上,MiniGPT-5的MM相关性指标达到0.67,超过基准模型Divter的0.62。这充分证明MiniGPT-5在不同数据模式下的强大适应能力。

开源地址:https://github.com/eric-ai-lab/MiniGPT-5

论文地址:https://arxiv.org/abs/2310.02239

MiniGPT-5模型主要有3大创新点:1)利用多模态编码器提取文本和图像特征,代表了一种全新的文本与图像对齐技术,效果优于直接利用大语言模型生成视觉token的方法。

2)提出了无需完整图像描述的双阶段训练策略:第一阶段,专注文本与图像的简单对齐;第二阶段,进行多模态细粒度特征学习。

3)在训练中引入了“无分类器指导”技术,可有效提升多模态生成的内容质量。主要模块架构如下。

Generative Vokens

复联4钢铁侠爸爸

MiniGPT-5的核心创新就是提出了“Generative Vokens”技术概念,实现了大语言模型与图像生成模型的无缝对接。

具体来说,研究人员向模型的词表中加入了8个特殊的Voken词元[IMG1]-[IMG8]。这些Voken在模型训练时作为图像的占位符使用。

在输入端,图像特征会与Voken的词向量拼接,组成序列输入。在输出端,模型会预测这些Voken的位置,对应的隐状态h_voken用于表示图像内容。

然后,h_voken通过一个特征映射模块,转换为与Stable Diffusion文本编码器输出对齐的图像条件特征ˆh_voken。

在Stable Diffusion中,ˆh_voken作为指导图像生成的条件输入。整个pipeline实现了从图像到语言模型再到图像生成的对接。

这种通过Voken实现对齐的方式,比逆向计算要直接,也比利用图像描述更为通用。简单来说,Generative Vokens就像是一座“桥梁”,使不同模型域之间信息传递更顺畅。

双阶段训练策略

考虑到文本和图像特征空间存在一定的域差异,MiniGPT-5采用了两阶段的训练策略。

第一阶段是单模态对齐阶段:只使用单个图像-文本对的数据,如CC3M。模型学习从图像标题生成对应的Voken。同时,加入辅助的图像标题损失,帮助Voken与图像内容对齐。

第二阶段是多模态学习阶段:使用包含连续多模态样本的数据,如VIST,进行微调。设置不同的训练任务,包括生成文本、生成图像和同时生成两者。增强了模型处理多模态信息的能力。

这种分阶段策略,可以缓解直接在有限数据上训练带来的问题。先进行粗粒度对齐,再微调细粒度特征,并提升了模型的表达能力和鲁棒性。

无分类器指导

为进一步提升生成文本和图像的连贯性,MiniGPT-5还采用了“无分类器指导”的技术。

transformer 多模态

其核心思想是,在图像扩散过程中,以一定概率用零特征替换条件Voken,实现无条件生成。

在推理时,将有条件和无条件的结果作为正负样本,模型可以更好地利用两者的对比关系,产生连贯的多模态输出。这种方法简单高效,不需要引入额外的分类器,通过数据对比自然指导模型学习。

文本到图像生成模型

MiniGPT-5使用了Stable Diffusion2.1和多模态模型MiniGPT-4作为文本到图像生成模型。可以根据文本描述生成高质量、高分辨率的图片。

Stable Diffusion使用Diffusion模型和U-Net作为主要组件。Diffusion模型可以将图片表示成噪声数据,然后逐步进行去噪和重构。

U-Net则利用文本特征作为条件,指导去噪过程生成对应的图片。相比GAN,Diffusion模型更稳定,生成效果也更清晰逼真。

为了准确地将生成标记与生成模型对齐,研究人员制定了一个用于维度匹配的紧凑映射模块,并结合了一些监督损失,包括文本空间损失和潜在扩散模型损失。

文本空间损失帮助模型学习标记的正确位置,而潜在扩散损失直接将标记与适当的视觉特征对齐。由于生成Vokens的特征直接由图像引导,因此,不需要图像的全面描述就能实现无描述学习。

研究人员表示,MiniGPT-5的最大贡献在于实现了文本生成和图像生成的有效集成。只需要普通的文本、图像进行预训练,就可以进行连贯的多模态生成,而无需复杂的图像描述。这为多模态任务提供了统一的高效解决方案。

本文素材来源加州大学圣克鲁斯分校论文,如有侵权请联系删除


返回网站首页

本文评论
2020年新能源乘用车总销量「乘联会:预计2023年5月新能源乘用车厂商批发销量67万辆 环比增长11%」
乘联会公布2023年5月新能源乘用车厂商批发销量快讯。vivos6拍照有防抖功能吗随着大量有竞争力的新品推出,价格促销力度不断加大,消费者的购买热情逐步释放,5月全国新能源车销量...
日期:06-07
ChatGPT会抢走人的饭碗?小冰李笛:知识准确性堪忧 但能互相激发
  讯;2月8日下午消息,由主办的《财之道2.0》今日上线,本期主题为《ChatGPT和“专家说”,我们该相信谁?》,节目邀请了小冰公司首席执行官李笛,创世伙伴资本CCV董事总经理寿翀,网易...
日期:02-09
最强防水!红米Note 13 Pro 通过IP69级防护测试:可承受高温高压_红米note9 4g防水等级
快科技10月19日消息,今天上午,微博认证为Redmi产品经理的吴昊发布微博,称Redmi Note13Pro 通过IP69测试。微信8.0福福特为什么解雇CEO案例分析其在微博中表示:上市前研发只允许...
日期:10-19
特斯拉汽车交付专员「为交付Semi卡车做准备 特斯拉招募技术服务人员」
9月5日消息,上月美国电动汽车制造商特斯拉首席执行官埃隆·马斯克(Elon Musk)证实,公司将于今年晚些时候开始交付电动卡车Semi。特斯拉官网发布的招聘信息显示,公司正在为“Semi...
日期:11-04
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访_王小川ioi
声明:本文来自于微信公众号 新智元(ID:AI_era),编辑:好困 桃子,授权转载发布。【新智元导读】今天,百川智能正式发布70亿参数开源中英文大模型——baichuan-7B,一举拿下多个评测榜单...
日期:06-15
苹果申请扩展 Siri 商标,可应用于冰箱、烤面包机等_siri怎么打开扩音
IT之家 5 月 16 日消息,根据美国商标和专利局(USPTO)公示的清单,苹果于上周扩充了“Siri”商标的覆盖范围,将其引入到家电领域。根据苹果申请的商标扩充,Siri 语音助手可应用于烹...
日期:05-16
今年发布ipad「Lightning时代终结 iPad 10本月发:终于换上USB-C」
今日消息,据MacRumors报道,苹果将在本月推出iPad新品,这次苹果可能会直接上架新品,不举办新品发布会。据爆料,苹果将会带来新款iPad Pro和iPad 10,其中iPad 10价格亲民,定价在300美...
日期:10-08
黑龙江联通携手华为部署新型分布式微站5G DRS,打造居民区“网络好一点”新品牌
黑龙江联通携手华为部署新型分布式微站5G DRS,打造居民区“网络好一点”新品牌   为了贯彻...
日期:06-03
茶颜观色母公司被列入经营异常名录 曾因不正当竞争被茶颜悦色起诉
每经记者 王帆;;每经编辑 董兴生;;   8月18日,《每日经济新闻》记者查询国家企业信用信息公示系统发现,茶饮品牌茶颜观色母公司广州洛旗餐饮管理有限公司(以下简称“洛旗餐饮...
日期:08-19
英特尔发布世界上最快的超级学术计算机Frontera:每秒最高38.7千万亿次浮点运算
  2018年8月,戴尔EMC和英特尔宣布联合设计一款叫做Frontera的超级学术计算机,由美国国家科学基金会提供6000万美元资助,这台超算将取代德克萨斯大学奥斯汀分校(TACC)的Stamp...
日期:07-05
华为发布Nova 11i手机:2200元_华为nova1上市时间和价格
华为Nova 11系列还有新机,这就是刚刚发布的Nova 11i,这款手机目前已经在海外发布,,Nova 11i配备6.8寸LCD屏,还有着2K分辨率和90Hz的刷新率,搭载的是骁龙680处理器和8GB内存。华为...
日期:05-03
新浪微博的产品定位_新浪“微博搜索”独立产品曝光 个性化搜索时代逼近
新版微博正式上线余热尚在,新浪微博再掀业界热点,新浪“微博搜索”独立域名页悄然曝光,部分用户登录新浪微博后,输入s.weibo.com用户可通过其搜索到相关的微博、微群、用户、活...
日期:07-24
苹果15天退货是无条件的吗「苹果iPhone 15退货量大关闭退货通道?焊死车门?真相大白」
快科技9月25日消息,昨日有传言称紧急通知,苹果公司因为退货量过大,关闭退货通道,再次开启以邮件方式通知,请留意!”有网友慌了:苹果这是要焊死车门?据了解,昨晚有小伙伴进行退货iPhon...
日期:09-25
泡老坛酸菜牛肉面步骤「统一回应老坛泡椒牛肉面分地区版本:只是不同系列不同包装」
11月2日消息,近日,一位成都博主发布视频称,她在煮方便面时发现,网购的统一老坛泡椒牛肉方便面竟然没有红油包,而是白色油包,跟自己在成都超市买到的完全不一样。因为之前在广东吃...
日期:11-03
中科三方云解析DNS:助力上交所加快金融系统域名安全建设_中科三方网络技术有限公司
北京中科三方网络技术有限公司为上海证券交易所(以下简称“上交所”)域名云解析服务的战略合作机构,连续四年为上交所提供DNS云解析服务,极大提升了上交所网络系统的域名安全、...
日期:06-29
固态硬盘可以取代机械硬盘了吗?_固态硬盘可以代替u盘吗
相信有很多小伙伴已经注意到了,目前市场上很多固态硬盘的价格相比去年又降低了不少。这是由于制造固态硬盘所需的NAND芯片降价导致的。根据集邦咨询的数据显示,NAND Flash市场...
日期:09-18
践行智慧城市之路,华为云荣获“最佳数字孪生城市方案奖”_华为智慧城市未来发展白皮书
  12月17日,由雷锋网主办的「AI 最佳掘金案例年度评选」结果正式揭晓,作为国内具有全栈全场景AI能力的云厂商之一,华为云凭借领先的技术实力和全栈产品能力、优秀的本地...
日期:06-03
终身质保或成可能-魅族20系列预热,引入A公司H公司同级别品控标准
2 月 20 日消息,魅族科技今日通过社交媒体表示,魅族 20 系列引入 A 公司、H 公司同级别严苛品控标准,新增 30000+ 项软硬件质量标准考核。并称此次“‘终身’质保或成为可能”...
日期:09-20
日本公布2022年度热门汉字  “战”字得票最多「2020年日本年度汉字揭晓:密」
12月12日 消息:日本12月12日公布了今年的热门汉字,“战”字当选,这与今年世界格局相符合,如俄乌冲突引人担忧、物价上涨,以及日本政府将在本月出台《国家防卫战略》。抖音展示动...
日期:12-12
腾讯联合任天堂打造!《宝可梦大集结》国服首测定档_腾讯宝可梦大集结switch国行
快科技8月20日消息,今天,TPC授权,腾讯天美工作室开发的Moba游戏《宝可梦大集结》国服官方,终于公布了首测测试的时间。华为智慧屏能耗根据官方公告,此次测试将在8月22日10点正式...
日期:08-21