您的位置:首页 > 互联网

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

发布时间:2023-11-21 09:05:11  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

AI能理解搞笑视频笑点在哪里了。

AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。

在投影之前对齐图像和视频表示

这项工作具体贡献如下:

  • Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。

  • Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中,将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的,该编码器将不同的模态映射到文本特征空间中,提供了一个统一的视觉表示。然后,统一的视觉表示经过共享的投影层和词嵌入层进行编码,以将统一的视觉表示映射给大型语言模型使用。

  • Video-LLaVA在视频上表现出色,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力,研究团队做了充分实验。

视频理解能力实验。

如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。

图片理解能力实验。

该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:

为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。

他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。

然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。

通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。

有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。

这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。

通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。

iphone 14 pro max银色会不会氧化

在视频理解方面,联合训练的也得到了明显的提升。

参考资料:

[1]https://arxiv.org/abs/2311.10122

[2]https://github.com/PKU-YuanGroup/Video-LLaVA


返回网站首页

本文评论
亚马逊拒绝与拼多多海外版Temu展开价格战,视后者为可疑市场
IT之家 6 月 14 日消息,据路透社报道,亚马逊有一个价格搜索算法,可以检查其平台上销售的产品是否与竞争对手的价格相当。然而亚马逊近日宣布,其将把去年 9 月上线的新兴电商平台...
日期:06-14
黑客也会入侵汽车电脑 给司机带来生命危险_黑客能不能控制汽车
  5月17日消息,据国外媒体报道,一组计算机科学家研究发现,面对黑客的入侵,汽车电脑也难逃一劫,甚至比个人电脑更容易遭到黑客的进攻。   来自华盛顿大学和加利福尼亚大学的...
日期:07-29
实测|“360智脑”大升级后能图生图、文生视频、视频生文……看看你的工作是不是要被取代了
【】6月14日消息,360智脑推出了最新4.0版本,能力进行了大升级。根据360集团创始人周鸿祎的介绍,自2023年3月29日以来,不到3个月的时间,360智脑从1.0迭代至4.0版本。360智脑4.0具...
日期:09-24
微软 Bing Chat 正式支持谷歌桌面版浏览器 Google Chrome_微软用谷歌内核
8月29日 消息:微软正式为 Google Chrome 添加了对 Bing AI 的支持。三星exynos 7872和联发科6763据悉,Bing AI 在六个月前发布时仅限于 Microsoft 的 Edge 浏览器,但现在已经...
日期:08-29
2021 年偏光片市场排名:杉金光电 / 住友集团 / 三星 SDI 居前三
  据 CINNO Research 消息称,近日,日本矢野经济研究所于近日公布了显示屏用偏光片和光学薄膜元件的全球市场(生产面积)调查。   尽管存在电视机面板制造商调整生产等负面...
日期:07-17
中创新航推出“顶流”圆柱电池,能量密度可达 300Wh/kg_圆柱电池厂家
IT之家 4 月 3 日消息,4 月 2 日,中创新航在电动汽车百人会论坛上首次正式公开发布“顶流”圆柱电池。该公司称,“顶流”圆柱电池是基于中创新航 One-Stop (OS) 极简设计的又一...
日期:04-03
一款月流水千万美金的宠物社交App,迈入web3.0时代_宠物交流平台app
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:辛童,授权转载发布。小学六年级,笔者打开电脑的第一件事是登录 QQ 宠物,喂喂我的粉红小企鹅、给它洗个澡,陪它玩跳鼠标、...
日期:09-12
Neo8系列今日官宣_首发天玑9200+ 全球安卓最强芯- 「iQOO」「天玑920 800u」
在昨日举行的的联发科新一代旗舰芯片天玑9200+的发布会上,iQOO官方也正式宣布,全新的iQOO Neo8系列新品将全球首发搭载这款当前性能最强大的移动平台,并且官方还表示,将会在今天...
日期:09-17
IBM发布雄心勃勃计划,到2026年让200万人接受AI培训
文章概要:lgd 显示器1. IBM宣布计划在2026年之前让200万名人接受AI培训,重点关注代表性不足的社区,以缩小全球人工智能技能差距。2. 该计划包括免费生成式人工智能课程和与大...
日期:09-20
马斯克不断公开恳求名人推特发帖 以提高平台流量和收入_马斯克推特最新动态
根据X(前身为推特)的老板埃隆·马斯克的说法,泰勒·斯威夫特应该直接在这个社交媒体平台上发布她的音乐。9月20日,泰勒·斯威夫特透露了她即将于10月27日发行的《1989(泰勒版)》...
日期:09-25
拼多多正筹建跨境电商平台:密集挖角SHEIN员工,0佣金招商入驻_拼多多海淘店铺入驻
华为matebook产能不足   记者/程璐   近日,据《晚点LatePost》报道称拼多多正在筹备跨境电商平台,应用预计在9月中旬上线,第一站是美国。对于上述消息,拼多多方面对界面新闻...
日期:08-19
工信部收回98个电信网码号「工信部收回98个电信网码号是真的吗」
2023/5/10 11:25 工信部收回98个电信网码号 工信微报   工信部昨日发布了...
日期:06-03
营收699.7亿!长城汽车发布2023上半年财报 主打良心造车_长城汽车2021一季报
快科技8月31日消息,日前,长城汽车正式公布了2023上半年的财报。据悉,今年1-6月,长城汽车营业收入达699.71亿元,同比增长12.6%,连续三年实现增长;归母净利润为13.61亿元;单车平均售价...
日期:08-31
苹果公司加入改善残疾用户语音识别的项目_苹果公司残疾人
伊利诺伊大学(UIUC)正在与苹果和其他科技巨头合作开展"语音无障碍项目",该项目旨在为具有语音模式和残疾的人改进目前版本难以理解的语音识别系统。虽然经常被嘲笑误听用户的请...
日期:10-06
Soul遇到的电影特效师,出现在漫威和《权游》的片尾
  “看完《权利的游戏》的片尾再关闭播放软件啊,上面可有我的名字呢!”在我准备去看《权力的游戏》前,笔者在Soul上认识的“惊坐”突然这样嘱咐道。一时间,笔者竟然有点没反...
日期:02-04
小红书IPO或无望,亟待商业模式突围「小红书的商业模式研究」
  撰文 | 茜茜题图 | IC Photo  近日,小红书原CFO杨若因家庭原因离职,又给小红书IPO之路再添迷雾。  艾媒咨询张毅对DoNews直言,“在小红书目前的阶段,CFO的功能就是为上...
日期:10-05
拉卡拉前三季度营收43.55亿元 同比减少11.8%_拉卡拉年度报告
10月31日 消息:日前,拉卡拉发布了2022年第三季度报告,报告显示该公司前三季度营业收入为43.55亿元,同比减少11.83%。财报显示,归属于上市公司股东的净利润为4.14亿元,同比减少51....
日期:11-03
软件开发商纷纷寻求替代技术 担心过于依赖OpenAI被卡脖子
3月30日消息,由ChatGPT掀起的AIGC热潮已经引爆全球,几乎每个行业都在反思如何利用它。然而,由于担心过度依赖首先推出该技术的OpenAI,部分软件开发商正在寻找替代技术。随着AIGC...
日期:10-04
iphone4s刚发售的价格_苹果iPhone4S今天正式发售
  据路透社报道,苹果iPhone4S今天终于正式发售,预计全球各地的苹果粉丝将掀起抢购的热潮。iPhone4S是苹果在史蒂夫·乔布斯生前推出的最后一款iPhone手机,很多苹果粉丝购买i...
日期:07-23
百度投资微脉「百度旗下公司入股互联网医疗平台微脉」
7月7日 消息:天眼查App显示,近日,微脉技术有限公司发生工商变更,新增浙江余杭转型升级产业投资有限公司、杭州求创凤栖谷股权投资合伙企业(有限合伙)以及百度旗下上海佰颢企业管...
日期:07-07