您的位置:首页 > 互联网

如何定位一段视频的位置「一句话精准视频片段定位!清华新方法拿下SOTA|已开源」

发布时间:2024-01-06 20:15:49  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 栗子 ,授权转载发布。

只需一句话描述,就能在一大段视频中定位到对应片段!

比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:

就连“大笑”这种语义难理解型的,也能准确定位:

方法名为自适应双分支促进网络(ADPN),由清华大学研究团队提出。

具体来说,ADPN是用来完成一个叫做视频片段定位(Temporal Sentence Grounding,TSG)的视觉-语言跨模态任务,也就是根据查询文本从视频中定位到相关片段。

ADPN的特点在于能够高效利用视频中视觉和音频模态的一致性与互补性来增强视频片段定位性能。

华为小米oppo快充协议

相较其他利用音频的TSG工作PMI-LOC、UMT,ADPN方法从音频模态获取了更显著地性能提升,多项测试拿下新SOTA。

目前该工作已经被ACM Multimedia2023接收,且已完全开源。

一起来看看ADPN究竟是个啥~

一句话定位视频片段

视频片段定位(Temporal Sentence Grounding,TSG)是一项重要的视觉-语言跨模态任务。

它的目的是根据自然语言查询,在一个未剪辑的视频中找到与之语义匹配的片段的起止时间戳,它要求方法具备较强的时序跨模态推理能力。

然而,大多数现有的TSG方法只考虑了视频中的视觉信息,如RGB、光流(optical flows)、深度(depth)等,而忽略了视频中天然伴随的音频信息。

音频信息往往包含丰富的语义,并且与视觉信息存在一致性和互补性,如下图所示,这些性质会有助于TSG任务。

△图1

(a)一致性:视频画面和脚步声一致地匹配了查询中的“走下楼梯”的语义;(b)互补性:视频画面难以识别出特定行为来定位查询中的“笑”的语义,但是笑声的出现提供了强有力的互补定位线索。

因此研究人员深入研究了音频增强的视频片段定位任务(Audio-enhanced Temporal Sentence Grounding,ATSG),旨在更优地从视觉与音频两种模态中捕获定位线索,然而音频模态的引入也带来了如下挑战:

  • 音频和视觉模态的一致性和互补性是与查询文本相关联的,因此捕获视听一致性与互补性需要建模文本-视觉-音频三模态的交互。

  • 音频和视觉间存在显著的模态差异,两者的信息密度和噪声强度不同,这会影响视听学习的性能。

为了解决上述挑战,研究人员提出了一种新颖的ATSG方法“自适应双分支促进网络”(Adaptive Dual-branch Prompted Network,ADPN)。

如何定位一段视频的位置

通过一种双分支的模型结构设计,该方法能够自适应地建模音频和视觉之间的一致性和互补性,并利用一种基于课程学习的去噪优化策略进一步消除音频模态噪声的干扰,揭示了音频信号对于视频检索的重要性。

ADPN的总体结构如下图所示:

△图2:自适应双分支促进网络(ADPN)总体示意图

它主要包含三个设计:

1、双分支网络结构设计

考虑到音频的噪声更加明显,且对于TSG任务而言,音频通常存在更多冗余信息,因此音频和视觉模态的学习过程需要赋予不同的重要性,因此本文涉及了一个双分支的网络结构,在利用音频和视觉进行多模态学习的同时,对视觉信息进行强化。

具体地,参见图2(a),ADPN同时训练一个只使用视觉信息的分支(视觉分支)和一个同时使用视觉信息和音频信息的分支(联合分支)。

两个分支拥有相似的结构,其中联合分支增加了一个文本引导的线索挖掘单元(TGCM)建模文本-视觉-音频模态交互。训练过程两个分支同时更新参数,推理阶段使用联合分支的结果作为模型预测结果。

2、文本引导的线索挖掘单元(Text-Guided Clues Miner,TGCM)

考虑到音频与视觉模态的一致性与互补性是以给定的文本查询作为条件的,因此研究人员设计了TGCM单元建模文本-视觉-音频三模态间的交互。

参考图2(b),TGCM分为”提取“和”传播“两个步骤。

首先以文本作为查询条件,从视觉和音频两种模态中提取关联的信息并集成;然后再以视觉与音频各自模态作为查询条件,将集成的信息通过注意力传播到视觉与音频各自的模态,最终再通过FFN进行特征融合。

3、课程学习优化策略

研究人员观察到音频中含有噪声,这会影响多模态学习的效果,于是他们将噪声的强度作为样本难度的参考,引入课程学习(Curriculum Learning,CL)对优化过程进行去噪,参考图2(c)。

他们根据两个分支的预测输出差异来评估样本的难度,认为过于难的样本大概率表示其音频含有过多的噪声而不适于TSG任务,于是根据样本难度的评估分数对训练过程的损失函数项进行重加权,旨在丢弃音频的噪声引起的不良梯度。

(其余的模型结构与训练细节请参考原文。)

多项测试新SOTA

研究人员在TSG任务的benchmark数据集Charades-STA和ActivityNet Captions上进行实验评估,与baseline方法的比较如表1所示。

ADPN方法能够取得SOTA性能;特别地,相较其他利用音频的TSG工作PMI-LOC、UMT,ADPN方法从音频模态获取了更显著地性能提升,说明了ADPN方法利用音频模态促进TSG的优越性。

△表1:Charades-STA与ActivityNet Captions上实验结果

研究人员进一步通过消融实验展示了ADPN中不同的设计单元的有效性,如表2所示。

△表2:Charades-STA上消融实验

研究人员选取了一些样本的预测结果进行了可视化,并且绘制了TGCM中”提取“步骤中的”文本 to 视觉“(T→V)和”文本 to 音频“(T→A)注意力权重分布,如图3所示。

可以观察到音频模态的引入改善了预测结果。从“Person laughs at it”的案例中,可以看到T→A的注意力权重分布更接近Ground Truth,纠正了T→V的权重分布对模型预测的错误引导。

△图3:案例展示

总的来说,本文研究人员提出了一种新颖的自适应双分支促进网络(ADPN)来解决音频增强的视频片段定位(ATSG)问题。

他们设计了一个双分支的模型结构,联合训练视觉分支和视听联合分支,以解决音频和视觉模态之间的信息差异。

他们还提出了一种文本引导的线索挖掘单元(TGCM),用文本语义作为指导来建模文本-音频-视觉交互。

最后,研究人员设计了一种基于课程学习的优化策略来进一步消除音频噪音,以自感知的方式评估样本难度作为噪音强度的度量,并自适应地调整优化过程。

他们首先在ATSG中深入研究了音频的特性,更好地提升了音频模态对性能的提升作用。

未来,他们希望为ATSG构建更合适的评估基准,以鼓励在这一领域进行更深入的研究。

论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3612504

仓库链接:https://github.com/hlchen23/ADPN-MM

—完—


返回网站首页

本文评论
21年春节档票房「2023春节档预售票房破5亿:张艺谋电影《满江红》领跑」
1月20日消息,据灯塔专业版实时数据,2023年春节档新片预售总票房突破5亿元,电影《满江红》《流浪地球2》《无名》分列预售票房榜前三位,预售票房均已突破1亿元。其中《满江红》是...
日期:01-22
联发科最强5G Soc!天玑9300由vivo和联发科联合定义_联发科天玑900天梯图
快科技11月13日消息,在vivo X100系列发布会上,vivo正式带来了全新的蓝科技”vivo蓝晶芯片技术栈。vivo黄韬介绍,vivo X100系列搭载的联发科天玑9300由vivo和MTK联合定义,双方共...
日期:11-14
珠峰被救女子所雇登山公司深夜发声:救援费已支付 感谢救援_珠峰遇难者遗体
此前引起网络热议的登珠峰被救女子不愿支付全部救援费用”一事终于有了最新进展。昨日深夜,获救登山者刘女士所雇的登山公司凯途高山”发布了关于此次救援事件的情况说明,对救...
日期:06-11
华为帮比亚迪换万兆网络:支持30万员工上网 全无线办公「比亚迪升级华为」
快科技8月2日消息,华为为比亚迪打造了高品质万兆园区网络,该网络具有极速接入、极致体验、极简架构和极简运维四大特征。在办公场景下,全无线办公网络采用万兆上行高吞吐、高并...
日期:08-02
努比亚新机卷王来了_售价不足2100元_努比亚2019年新机
来源:中关村在线瑞士手表品牌有哪些牌子努比亚Z50S手机近日在京东上架,这款手机以极高的性价比著称,堪称年度卷王。在配置方面,努比亚Z50S采用了台积电4纳米工艺的骁龙8 Gen2处...
日期:10-22
优必选科技CBO谭旻:以人形机器人为代表,前所未有的智能硬件革命正悄然发生
2023年12月5日,深圳市互联网信息办公室、宝安区人民政府、网易传媒联合主办“2023新一代人工智能(深圳)创业大赛”颁奖典礼在深圳成功举办。“2023新一代人工智能(深圳)创业...
日期:12-06
阔别近4年重返德国!余承东太高兴:华为产品受到热烈欢迎_余承东是华为的什么人物
快科技5月10日消息,5月9日,华为在德国慕尼黑举行发布会,面向海外市场推出华为P60 Pro、华为Mate X3等多款新品。今日,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东...
日期:05-10
“电子茅台”!华为Mate 60 RS非凡大师第三方渠道卖3万多:比iPhone 15 Pro Max贵1倍
快科技10月1日消息,华为在9月份秋季全场景新品发布会上带来了Mate 60 RS非凡大师,1TB版本官方定价是12999元。这款新品自亮相后就引发关注,第三方渠道溢价1倍以上。目前华为Mat...
日期:10-01
印度火车车祸「印度列车相撞事故已致288死900伤:死者家属可获8.6万元赔偿金」
快科技6月3日消息,当地时间周五晚,印度奥迪沙邦发生严重火车相撞事故,截至目前,已致288人死亡,超过900人受伤。apple music上一曲苹果 iphone 14 卫星紧急求救功能今天开始正式上...
日期:06-03
谷歌发布Smart Labels功能 帮助用户更好的实现收件箱管理
  北京时间3月14日消息,据国外媒体报道, 谷歌Gmail实验室推出了一项命名为智能标签(Smart Labels)新功能,其目的是帮助Gmail用户更好的实现收件箱管理。   不过谷歌官方表...
日期:07-26
ST 众泰:公司仍在按计划寻求与新能源汽车行业龙头推进重整工作
  此前,有投资者在投资者互动平台提问:去年官网发布,力争引进大型商贸流通企业,寻求与新能源汽车行业龙头进行全方位合作,发挥大企业的引领带头作用。此次公司重整重组动用的...
日期:02-14
arm架构 开源「Arm扩大开源合作伙伴关系,加强投入开放协作」
通信世界网消息(CWW)Arm 和我们的生态系统的关键信念之一是与开源社区合作,共创一个高度发达的 Arm 架构,使软件的落地更加稳定,从而让全球数百万开发者能够测试并创建自己的应用...
日期:07-28
迪士尼中国第三家「香饽饽!中国第3座迪士尼会建在哪个城市:只会在这两地?」
近日,网传迪士尼乐园有望落户武汉引发热议。目前,中国已有2座迪士尼乐园:香港迪士尼、上海迪士尼。有媒体报道,根据专家分析,迪士尼基本上不可能在中国再建第3座迪士尼乐园了。不...
日期:06-06
美法院最新公开临时限制令 Temu平台50款产品涉侵权Shein_美国法院临时禁令
  美法院最新公开临时限制令显示,Temu平台50款产品涉侵权Shein,美国伊利诺伊州北区联邦地区法院东部分院向Temu29个商铺在内的涉事方发布了TRO(临时限制令),要求停止涉侵权Shei...
日期:12-23
努比亚Neo手机6月20日海外首发!搭载紫光展锐T820处理器_努比亚手机新款
紫光展锐于去年11月发布了一款基于6nm EUV工艺的高性能5G SoC芯片T820,拥有金融级全内置安全方案。今天,搭载T820芯片的紫光展锐 5G终端手机家族又迎来新成员——努比亚NEO,官...
日期:06-16
60多款新能源汽车完成冬季测试:国产优势明显 充电体验基本无影响
目前来说,虽然新能源汽车的接受度已经非常高,但还是面临一个难以克服的问题低温。低温会让电池衰减非常严重,导致续航水平、充电效率明显下降,不少厂商都会配备有加热技术,保证电...
日期:01-17
系误会 「自己拍的照片被视觉中国告侵权」-视觉中国回应
【】8月16日消息,8月15日,微博博主@Jeff的星空之旅 发文,称自己拍摄的173张照片,被视觉中国致电称是侵权使用,还被要求赔偿8万余元。华为新品mate50该博主在文中称,这些作品从未与...
日期:09-17
践行碳中和使命 太太乐全面推行净零碳路线规划
  气候变化始终是当今社会面临的最大挑战之一,世界各国都在倡导减少碳排放,最终实现“净零”(net zero)排放。碳中和已成为全球性的呼声,被视为遏制气候变化和减少自然灾害...
日期:07-17
快手捐赠1000万元,助力京津冀抗汛救灾「快手捐款名单排名」
8月3日消息,快手公益基金会宣布捐赠1000万元,用于京津冀地区的抗汛紧急救助、灾后重建和复工复产等。公司员工走完了据悉,灾情发生后,快手紧急开通了《京津冀暴雨求助通道》,受困...
日期:08-03
专家双十一解析购物成瘾根源:都是商家刻意营造 中圈套了_双十一购物骗局
截止今天零点,今年的双十一电商节算是告一段落,各厂商也已经晒出了自己的成绩单。主流厂商动辄几十上百亿的成绩,都是我们普通消费者一笔笔订单积攒起来。那为什么这么多消费者...
日期:11-14