您的位置:首页 > 互联网

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

发布时间:2023-11-23 19:19:26  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。

最近,来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA,为alignment before projection提供了新颖的解决方案。

与以往的视觉语言大模型不同,Video-LLaVA关注的是提前将图片和视频特征绑定到统一个特征空间,使LLM能够从统一的视觉表示从学习模态的交互。

此外,为了提高计算效率,Video-LLaVA还联合了图片和视频进行训练和指令微调。

论文地址:https://arxiv.org/pdf/2310.01852.pdf

GitHub地址:https://github.com/PKU-YuanGroup/Video-LLaVA

Huggingface地址:https://huggingface.co/spaces/LanguageBind/Video-LLaVA

凭借强大的语言理解能力,诸如ChatGPT这类的大语言模型迅速在AI社区风靡。而如何让大语言模型同时理解图片和视频,也成为了大模型背景下的研究多模态融合的热点问题。

最近的工作将图片或视频通过几个全连接层映射成类似文本的token,让LLM涌现理解视觉信号的能力。

然而,图片和视频是分开用各自的编码器,这对LLM学习统一的视觉表征带来了挑战。并且通过几个映射层教会LLM同时处理图片和视频的性能往往不如视频专家模型如Video-ChatGPT。

对此,来自北大团队认为这种现象源于misalignment before projection。因为图片特征和视频特征在送入LLM之前就已经收敛到各自的特征域空间,这就给LLM学习它们之间的交互带来了挑战。

,时长00:32

类似的现象如misalignment before fusion,也可以在早期的多模态融合工作被观察到,如ALBEF。

不同视觉语言大模型范式的比较

方法介绍

Video-LLaVA的方法简单有效,不需要额外自己预先训练图片和视频模态的编码器,而是巧妙地通过LanguageBind编码器来预先对齐图片和视频特征,形成统一的视觉表征。

具体来说,Video-LLaVA采用的图片和视频编码器通过共享一个语言特征空间,图像和视频表示最终融合成一个统一的视觉特征空间,称之为图像和视频的emergent alignment。

因此,Video-LlaVA通过LanguageBind预先对视觉输入进行对齐,以减小不同视觉信号表示之间的差距。统一的视觉表征经过共享的投影层后,输入到大语言模型中。

小沈龙搞笑剧

并且Video-LlaVA在训练过程中始终没有用到视频图片成对的数据,而是在训练后发现的LLM会惊人的涌现出同时理解图片和视频。

如下图所示,Video-LlaVA成功的识别出图片的自由女神像是近景且细腻的,而视频描述的是多角度的自由女神像,他们是来源于同一个地方。

Video-LLaVA采取两阶段的训练策略:

在视觉理解阶段,使用了一个558K个LAION-CC-SBU图像-文本对。视频-文本对是从Valley 提供的子集中获得的,总共有703k对,这些视频源自WebVid。

在指导微调阶段,团队从两个来源收集了指导性数据集,包括来自LLaVA的665k个图像-文本数据集,以及从Video-ChatGPT获得的包含100k个视频-文本数据集。

windows server 版本区别

- 视觉理解阶段

在这个阶段,模型需要通过一个广泛的视觉-文本对数据集来获取解读视觉信号的能力。每个视觉信号对应一个回合的对话数据。

这个阶段的训练目标是原始的自回归损失,模型通过学习基本的视觉理解能力。在此过程中,冻结模型的其他参数。

- 指令微调阶段

在这个阶段,模型需要根据不同的指令提供相应的回复。这些指令通常涉及更复杂的视觉理解任务,而不仅仅是描述视觉信号。需要注意的是,对话数据包含多个回合。

如果涉及多轮对话,输入数据会将所有之前回合的对话与当前指令连接起来,作为本回合的输入。训练目标与前一阶段相同。

苹果怎么从ios15.4回到ios14

经过这个阶段,模型学会了根据不同的指令和请求生成相应的回复。在这个阶段,大语言模型也参与训练。

实验

- 视频理解能力

如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。

- 图片理解能力

该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:

- 预先对齐视觉输入

将图片编码器替换相同规模的MAE encoder。定义用MAE encoder是分隔的视觉表示,Languagebind是统一视觉表示(因为预先对齐了视觉表征),并且将MAE encoder和LanguageBind encoder在13个基准上进行对比,这其中包含9个图片理解基准和4个视频理解基准。

对于图片理解,统一视觉表示展现了强大的性能,它在5个图片问答数据集和4个基准工具箱上全面超过了分隔的视觉表示。

另外,我们注意到统一视觉表示在POPE,MMBench,LLaVA-Bench,MM-Vet这四个基准工具箱上的性能以巨大的优势超过。

这突出了预先对齐了视觉表征不仅在图片问答上提升了性能,还在图片理解的其他方面收益,如减小幻觉,提升OCR能力等。

由于替换图片编码器为MAE encoder,视频特征和图片特征在LLM初始学习视觉表示时不再统一。

在图6,相比于分隔视觉表示,联合视觉表示在4个视频问答数据集上全面提高了性能。

这些结果展现了预先对齐视觉表征表示能够帮助LLM进一步学习理解视频。

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。

对于图片理解,Video-LLaVA在无法回答的和数字上的表现超过了LLaVA-1.5,这意味着联合训练视频使得在图片上的幻觉问题有所缓解,和对图片数字信号的理解能力增强。

相同的趋势在LLaVA-Bench上被观察到,Video数据显著提升了LLM在图片Complex reasoning,Conversation上的表现。

对于视频理解,团队在4个Video问答数据集上评估。

与没有图片参与训练的Video-LLaVA相比,有图片联合训练的模型在4个数据集上全面超过。

这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。

参考资料:

https://github.com/PKU-YuanGroup/ Video-LLaVA


返回网站首页

本文评论
4520元贵妇级护肤品复刻版卖47元:相似度能达到99.99%_贵妇级护肤品真的有用吗
6月28日消息,据媒体报道,不少商家以远低于正品售价的价格出售大牌护肤品的复刻”版。以官网售价4520元的海蓝之谜面霜为例,在某批发平台上100克复刻面霜售价47元,仅为正品的百分...
日期:06-29
演唱会强实名后黄牛代抢生意火了 收费是票价的数倍_演唱会黄牛用的什么抢票软件
最近,“TFBOYS十周年演唱会”成为热门话题,引发抢票狂潮,超过400万人参与预约,票务平台一开售就售罄,成功率只有0.008%。据了解,这次TFBOYS十周年演唱会的票价从580到2013元不等,要...
日期:07-25
性能将逆天 iPad Pro 2024或搭载3nm制程M3芯片_2020年ipad pro芯片
苹果公司最近发布了一款全新的iPhone 15系列手机,这款手机搭载了全新的A17 Pro芯片,这是业界首款采用3nm制程工艺的手机芯片。根据最新爆料,苹果公司计划明年推出新一代的iP...
日期:10-10
特斯拉德国柏林工厂突发火灾,什么原因?_特斯拉工厂发生火灾 新闻
德国当地时间9月26日凌晨3时许,特斯拉柏林超级工厂突发火灾。事故发生后,特斯拉自己的12名消防员先进行了抢险,但意识到已经无法控制火势后便通知了消防部门。经过50名消防员(包...
日期:09-29
瓦格纳“叛乱”背后:草根出生的“普京厨师”VS精英路线的“普京心腹”
当地时间23日,俄罗斯瓦格纳雇佣兵公司负责人普里戈任称,瓦格纳部队已经越过乌克兰边境,并进入与乌克兰接壤的俄罗斯南部边境罗斯托夫。据最新报道,俄罗斯国防部向瓦格纳士兵发出...
日期:06-24
手机图片_手机图片转pdf
随着科技的发展,手机成为了人们生活中必不可少的物品。除了打电话和发短信以外,手机还能够帮助人们记录下生活中的美好瞬间。因此,成为了现代人生活中不可缺少的一部分。随着手...
日期:05-28
创新未来「好未来公布新战略 聚焦“科教、科普、科创”」
  讯 8月25日上午消息,8月24日,在好未来19周年司庆上,好未来创始人兼CEO张邦鑫面向全体员工直播分享,正式公布好未来全新的使命和愿景,新使命为“爱与科技助力终身成长”,愿景更...
日期:09-07
WijmoJS 2019V1正式发布:全新的在线 Demo 系统,助您快速上手,开发无忧
  前端开发工具包 WijmoJS 在2019年的第一个主要版本2019V1已经发布,本次发布包括了更加易用的在线Demo系统、各控件新增功能、NPM 包的改动,以及全新的浏览器API组件。  ...
日期:06-22
tiktok未来发展预测「2023年 Facebook、Instagram、Twitter、TikTok 发展布局前瞻」
声明:本文来自微信公众号“德外5号”(ID:dewaiwuhao),作者:王涵,授权转载发布。2022年对于社交媒体来说是充满变数的一年,Meta持续下滑,TikTok持续上升,Twitter目前正处于混乱的管理...
日期:02-15
苏宁小家电24期免息积极“救市”
  2月24日晚,苏宁侯恩龙化身主播,宣布将于2月27日起推出“购家电享24期分期免息”活动,正式拉开家电销售破局大幕。   直播现场,苏宁家电集团生活电器公司总裁郭晓伟通过苏...
日期:10-18
宏碁aspire系列电脑_宏碁首款Ultrabook Aspire S3定价最低799美元
  宏碁在IFA 2011期间正式发表旗下旗下Ultrabook笔记本“Aspire S3,同时现场也公布实际售价,目前实际外观为13.3吋,将可选择搭载Intel Core i3、i5或i7两种规格的低电压处理...
日期:07-22
茶饮连锁品牌古茗跨界咖啡,已在全国门店上新「古茗全国加盟热线」
4月7日消息,茶饮连锁品牌古茗跨界咖啡,上新闪萃咖啡系列,主打两款新品榴莲生椰拿铁、牛油果生椰拿铁,目前已在全国门店上新。古茗方面透露,产品品类从鲜果茶延伸至鲜果咖啡,是因为...
日期:04-07
AI也“救”不了618
声明:本文来自微信公众号“开菠萝财经”(ID:kaiboluocaijing),作者:纪校玲,授权转载发布。卷不动的618,哪怕引入“杀疯了”的AI,还是“卖不动”。“卷”,是很多人对今年618最直观的...
日期:06-20
来了!小米14、小米14 Pro双双现身:软件系统、硬件配置将大升级「小米14pro怎么样」
快科技6月26日讯,2023年过半,各家安卓厂商的旗舰机基本布局完毕。此前高通已经官宣骁龙技术峰会定档10月24日,也就是骁龙8Gen3登场的日子,新一轮换代即将开始,其中比较引人注目的...
日期:06-26
三星s4手机「三星4s」
关于“”,你所需要知道的一切容声冰箱?三星是全球知名的电子产品制造商,其产品覆盖了智能手机、电视、冰箱、笔记本电脑等多个品类。在智能手机领域尤其是颇有建树,每一年总能...
日期:06-03
ipad溢价_调查显示iPad成本过高或成为消费者购买阻力
  据分析公司Compete进行的最新调查显示,尽管人们对平板电脑(特别是iPad和iPad 2)的兴趣大增,但某些因素可能会阻碍美国的消费者下定决心立刻购买一台平板电脑。调查显示,虽然...
日期:07-27
网络初代“水军头”口述:现在的套路,十年前就玩过了
  三联生活周刊 原创  通过一个采访视频,我们认识了石峰。他从2006年帮广告公司在论坛“灌水”赚到第一笔钱后,正式成为“五毛党水军”,还从西安辞职到了北京,一路做到传统...
日期:09-06
马斯克推特消息「马斯克称还不知道推特CEO是谁」
10 月 31 日讯:特斯拉CEO马斯克表示,目前还没确认推特CEO是谁。三星s22系列仅只有骁龙8一个版本移动运营商在移动支付产业链中的作用...
日期:11-07
或卖17万 特斯拉公布全新车型预告图,小号Model-Y
【】5月17日消息,特斯拉在今日凌晨举行的2023年度特斯拉股东大会上,公布了全新车型预告图,或许就是传闻中的Model Q/Model 2车型。iphone12 mini开售从预告图中来看,新车的整体...
日期:09-28
超越《王者荣耀》!《逆水寒》手游无更新登上AppStore榜一「逆水寒手机app叫啥」
对于不少游戏开发商来说,自家游戏在AppStore超越《王者荣耀》座大山都不容易;而更困难的,或许是超越即将开售限定传说皮肤的《王者荣耀》。摩托罗拉2018概念手机快科技8月17日...
日期:08-18