您的位置:首页 > 互联网

最长处理2小时,开源视频字幕模型Video ReCap_字幕视频模板

发布时间:2024-02-28 11:24:28  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGCOPEN,授权转载发布。

随着抖音、快手等平台的火爆出圈,越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。尤其是视频时长超过几分钟、甚至几小时,传统的视频字幕生成技术往往无法满足需求。

因此,北卡罗来纳大学和Meta AI的研究人员开源了,视频字幕模型Video ReCap。这是一种递归视频字幕生成模型,能够处理从1秒到2小时的视频,并在多个层级上输出视频字幕。

此外,研究人员通过在Ego4D上增加8,267个手动收集的长视频摘要,引入了一个层次化视频字幕数据集Ego4D-HCap,并使用该数据集对Video ReCap进行了综合评估。

结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均明显超过多个强大基准模型。通过该模型生成的分层视频字幕,也能显著提升基于EgoSchema数据集的长视频问答效果。

开源地址:https://github.com/md-mohaiminul/VideoRecap?tab=readme-ov-file

乐视贾跃亭股票

论文地址:https://arxiv.org/abs/2402.13250

Video ReCap模型介绍

Video ReCap的核心技术是使用了递归视频语言架构,主要通过递归处理机制,使模型能够在不同的时间长度和抽象层级上理解视频,从而生成精确且层次丰富的视频描述字幕。主要由3大模块组成。

1)视频编码器:Video ReCap使用了一个预训练的视频编码器,从长视频中提取特征。对于短视频片段,编码器则输出密集的时空特征。

这允许模型捕获细粒度的详细信息,对于更高层级的字幕,使用全局特征(如CLS特征),以降低计算成本并捕获长视频输入的全局属性。

2)视频-语言对齐:该模块可以将视频和文本特征映射到联合特征空间,以便递归文本解码器可以联合处理两者。

具体来说,使用了一个预训练的语言模型,通过在每个转换器块内注入可训练的交叉注意力层,从视频特征中学习固定数量的视频嵌入。

然后,从属于特定分层的字幕中学习文本嵌入。最后,连接视频和文本嵌入以获得联合嵌入,并交给后续的递归文本解码器使用。

3)递归文本解码器:该模块主要用于处理短、中、长三种视频的字幕,所以,采用了一种分层的生成策略。首先,使用从短视频剪辑中提取的特征生成短剪辑级别的字幕。这些短剪辑级别的字幕描述了视频中的原子动作和低级视觉元素,例如,对象、场景和原子动作等。

然后,使用稀疏采样的视频特征和上一层级别生成的字幕作为输入,生成当前层级别的视频字幕。这种递归设计可以有效地利用不同视频层次之间的协同作用,能高效地生成最多2小时的长视频字幕。

Video ReCap实验数据

为了评估Video ReCap模型,研究人员推出了一个新的分层视频字幕数据集Ego4D-HCap。该数据集是基于目前最大的公开第一人称视频数据集之一Ego4D。

永辉超市业绩下降

Ego4D-HCap主要包含三个层次的字幕:短剪辑字幕、几分钟长的段描述和长段视频摘要,用于验证分层视频字幕任务的有效性。

视频字幕停留时间应该多长

结果显示,在所有三个时间层级,Video ReCap模型都大幅度优于之前的强大的视频字幕基准模型。此外,还发现递归架构对于生成段描述和视频摘要非常重要。

例如,不带递归输入的模型在段描述生成方面CIDEr性能下降1.57%,而在长时间视频摘要生成方面下降了2.42%。

研究人员还在最近推出的长序视频问答基准EgoSchema上验证了该模型。结果显示,Video ReCap生成的分层视频字幕可以将文本问答模型的性能提高4.2%,并以50.23%的整体准确率刷新了记录,比之前的最佳方法提高了18.13%。


返回网站首页

本文评论
港股美团收跌超9% 快手跌超4%(美团股票最近大涨)
华为p8好用吗网易严选的品牌 查看最新行情   讯 8月16日下午消息,香港恒生指数收跌1.05%,恒生科技指数收跌2.03%。港股美团收跌超9%,盘中市值一度跌破万亿...
日期:08-17
星巴克推出龙年限定年丰咸香拿铁:68元 红烧肉风味_星巴克新出的拿铁
快科技2月18日消息,近日,星巴克推出红烧肉风味拿铁”一事引起网友热议。星巴克官方对此回应,所谓的红烧肉风味拿铁”其实是星巴克推出的龙年限定新品-年丰咸香拿铁。星巴克小程...
日期:02-18
看完下面的内容之后,闭着眼也得选真HDR电视!「看电影用hdr」
现在确实大屏电视也是便宜了,之前大几十万甚至是上百万的百吋大屏电视,如今普通一点的一两万块钱也就能买到了,对于喜欢在家看电影的朋友来说绝对是性价比爆棚了。谁知道我去一...
日期:07-27
黑莓、诺基亚、Android智能手机将可作电子钱包
  9月17日消息,据国外媒体报道,黑莓制造商Research In Motion(RIM)公司打算对其重要的企业客户开放一项在智能手机行业有十年之久的技术,该技术能将手机变成电子钱包。   从...
日期:07-23
十连冠!海尔智家再获全球智慧家庭发明专利榜NO1_海尔智家简介及发展史
2024 年 1 月 11 日,IPRdaily中文网公布了《 2023 年全球智慧家庭发明专利TOP100》推荐榜。其中,海尔智家以 6152 件公开专利申请数量再次蝉联榜首,实现全球十连冠。至此,海尔智...
日期:01-11
用户10亿对7亿:谷歌与Facebook数据对比(facebook 数据)
  美国AllFacebook网站今天通过一张信息图表对谷歌和Facebook进行了直观对比,结果显示,虽然Facebook发展迅速,但是谷歌实力更为雄厚。   以下就是图表中的主要数据:   ·...
日期:07-30
索尼爱立信:今年推出Android智能机将升至4.0(索尼爱立信智能手机)
  索尼爱立信日前证实,其所有在2011年推出的Android智能手机都将升级至Andoid 4.0版本(Ice Cream Sandwich,冰淇淋三明治)。Android 4.0是谷歌上周发布的最新版操作系统,将...
日期:07-24
马斯克推特doge「马斯克要做“美国微信”:推特已并入X公司」
快科技4月13日消息,推特公司实际上已经死亡”。当地时间4月11日,马斯克发布推文X”来回应今年4月份的一份文件,据悉,今年4月4日提交给法院的一份文件显示,推特已被直接并入一家名...
日期:04-13
荣耀X50i 4月25日正式开售 实力与颜值并存的高性价比手机_荣耀x50多少钱一部
荣耀X系列手机是荣耀旗下主打性价比的千元级机型,去年 7 月荣耀X40i手机正式发布后,近日,其迭代机型荣耀X50i手机也已正式发布,并将在 4 月 25 日正式开售。作为主打性价比的手...
日期:04-25
马斯克卸任推特CEO 将转任执行董事长和CTO
5月12日 消息:当地时间周四,马斯克在社交平台上宣布将卸任推特CEO,成为执行董事长和首席技术官,主要负责产品、软件和系统开发的监督工作。他同时透露,新的推特CEO是一位女性,将...
日期:05-12
滴滴下架后员工_滴滴宣布过冬:关停非主业 将裁员15%
  日前有媒体曝出,滴滴出行2018年持续亏损,补贴司机超过113亿元,全年亏损总额高达109亿元。   而接下来的2019年,滴滴也做好了过冬的准备,涉及关停非主业、裁员等方面,而对大...
日期:03-24
顺丰的先锋骑士值得加入吗「顺丰同城开启“先锋骑士免费换新装”活动 累计投入百万补贴」
9月29日 消息:自8月15日起,顺丰同城开启“先锋骑士免费换新装”活动,该活动为北京、上海、深圳、长沙、青岛5大城市专享,以上城市的先锋骑士将免费领取一套“顺丰同城X鸿星尔克...
日期:09-30
用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA
新智元报道编辑:好困【新智元导读】智能体如何从不同的语言中理解世界?近日,来自UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言...
日期:08-15
人脸识别解锁车辆?国产新专利公布_人脸识别专利是中国的吗
凤凰网科技讯11月4日消息,天眼查App显示,百度在线网络技术(北京)有限公司申请的“用于控制车辆的方法和装置”专利获授权。该实施方式可以通过人脸识别技术来解锁车辆,不需要用户...
日期:11-08
美团外卖推出“菜品运营助手” 商家新建菜品时间缩短44%_网易科技
近日,美团外卖面向商家推出智能“菜品运营助手”,尝试通过数字化方式洞察消费趋势,结合数据分析技术,为商家提供新品建议。美团外卖的“菜品运营助手”,可结合同行热卖、用户搜索...
日期:08-19
苹果新专利暗示MacBookPro或采用无键设计 无法再体验敲击快感「macbook触控板轻点无效」
11月16日 消息:苹果公司最近获得了一项名为“Keyless Keyboard”的技术专利。这表明未来的MacBook Pro键盘可能会采用与触控板相同的设计。换句话说,苹果用户将不再体验到敲...
日期:11-23
东方甄选“放不下”董宇辉_新东方董宇辉说过的话
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:卡思数据,授权转载发布。刚刚过去的2月,关于“董宇辉会不会离开东方甄选”,从业者和网友众说纷纭。“现在给我的薪酬非常...
日期:03-07
实时翻译工具Byrdhouse AI 可在视频通话中翻译100多种语言
1月17日 消息:Byrdhouse AI是一个强大的工具,可以在视频通话中实时翻译100多种语言。它提供了语音翻译字幕和AI驱动的实时口译功能,让用户在会议或聊天中可以将自己的语言转换...
日期:01-17
科技为本,还呗APP助推金融机构数字化转型(还呗app官网)
  6月30日,国家信息中心信息化和产业发展部发布了《中国产业数字化报告2020》, 对于金融行业,报告指出,数字科技的创新可以让金融的核心——风险管理,更加数字化、智能化,从而...
日期:07-14
全面内卷的美妆品牌,如何突破营销困局?
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:吴锐,授权转载发布。如今,美妆护肤几乎成为了年轻人日常生活的标配,美妆产品的目标消费群体在不断扩容,营销方式与内...
日期:08-22