您的位置:首页 > 互联网

100万悬赏AI界喜剧之王!北邮、南洋理工等发布「沙雕视频」数据集FunQA:用算法学习人类幽默

发布时间:2023-09-11 19:29:21  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】4千个沙雕视频+31万条鉴赏文本,让AI模型学习更准确的视频理解,反常识推理,幽默感,和准确的自由文本生成。

人们很容易就能在反直觉视频(幽默的、创意的、充满视觉效果的视频)中获得愉悦感,这吸引力不仅来自于视频对人类的视觉感官刺激,更来自于人类与生俱来的理解和发现快乐的能力,即能够理解并在出乎意料和反直觉的时刻找到乐趣。

然而,尽管今天的计算机视觉模型取得了重大进步,但问题仍然存在:视频模型能够「理解」视频中的幽默或创造力吗?

目前的视频问答(VideoQA)数据集仍集中于常见的、不太令人惊讶的视频和简单的任务(如Multi-choice, Open-end)。

仅仅回答出视频中简单的人事物(What, Who, How many, etc.)显然是不足以为理解视频提供帮助的。常用的视频问答数据集包括YouCook2(其中包含2K烹饪视频)及Howto100m(其中仅包含教学视频)。

部分数据集(如UR-FUNNY等)引入了电视节目中的幽默片段,并设置了预测笑声轨迹等任务,但这些任务往往严重依赖音频和叙事线索,视觉线索无法起到太大的作用。

为了解决这一差距并评估计算机视觉模型理解反直觉视频的能力,来自北京邮电大学、新加坡南洋理工大学及艾伦人工智能研究所的学者们提出了FunQA——一个全面的高质量视频问答数据集,由4.3K个有趣的视频和312K个人工注释的自由文本问答对组成。

论文地址:https://arxiv.org/abs/2306.14899

FunQA数据集包括三个子集:HumorQA、CreativeQA和MagicQA。每个子集涵盖不同的来源和视频内容,但共性在于视频令人惊讶的特性,例如,幽默视频中出人意料的对比,创意视频中耐人寻味的伪装,以及魔术视频中看似不可能的表演。

在FunQA中,研究者还制定了三个严格的任务以衡量模型对反直觉视频的理解。

这些任务使视频推理超越了肤浅的描述,要求模型具有更深入的理解和洞察能力。具体任务包括:

1)反直觉的时间戳定位:此任务要求模型确定视频中意外事件发生的具体时间段;

2)详细的视频描述:模型必须生成连贯、客观的视频内容描述,以展示其基本视频理解能力;

3)反直觉推理:模型必须对视频令人惊讶的原因做出具体解释。这需要对视频中的反直觉事件进行深度推理。

这些任务逐步评估模型对视频中出现的反直觉元素的感知、表达和推理能力。

此外,研究者还提出了更具挑战性的辅助任务,包括为视频起一个合适而生动的标题等。

下图为FunQA三个子集的Demo,展示了FunQA针对不同视频类型设计的问答对。

FUNQA数据集

在构建数据集时,研究者坚持三个原则来解决视频理解能力的挑战,即以视觉为中心,强调反直觉推理能力,及强调时空推理能力。

基于这些原则,FunQA包括来自3种不同艺术流派的4,365个视频和311,950个问答对。这些视频的总长度为23.9小时,视频段的平均长度为19秒。

FunQA数据集包括三个子集:HumorQA、CreativeQA和MagicQA。数据集具体统计数据见图2。

从统计数据图2(h)中可以看到三种不同类型视频的时间戳热图,它显示了答案的高频时间跨度。

从图2(h)中可以发现,对于描述和推理任务,其自由文本答案的平均长度达到了34.24,很大程度超越现有的VideoQA数据集(如Activity-QA中的8.7及NExT-QA中的11.6)。

FunQA标注一致性评估结果如图2(i)所示,对于每个视频类别,超过90%的注释表现出高度的一致性,只有1%的内容表现出低一致性。大约8%的数据显示了共识的变化,显示了FunQA数据集的客观性。

FunQA与其他现有基准的比较

与其他基准相比,FunQA关注有趣和反直觉视频领域。FunQA中的任务专为挑战模型的视觉能力而设计,需要深入描述、解释和时空推理能力。下表详细展示了FunQA与其他基准的对比。

通常,一个基准上的性能趋势可能与另一个基准上的性能趋势相似,例如VQA和MSCOCO之间值得注意的相关性。

然而相比于其他数据集,FunQA数据集不仅提供了新领域的评估,而且以其他数据集可能没有的方式为模型提出挑战,其特点包括:

1)深度时空推理:FunQA侧重于反直觉的内容,要求模型先理解典型场景(常识),再辨别幽默偏差。这种类型的深度推理仍然是一个具有挑战性但尚未开发的领域。

2)丰富的注释:与许多依赖于多选题或开放式简短答案的数据集不同,FunQA拥有平均长度为34个单词的自由文本注释(在此之前,视频问答领域中注释最丰富的数据集是NExT-QA,平均单词长度为11.6)。这种详细的注释方法允许更丰富的模型响应,并测试它们生成更细微的答案的能力。

3)探索幽默感:对幽默原则的细致理解可能对模型真正掌握一些视频的内容至关重要。(之前没有视频问答数据集关注这方面,仅有VisualQA领域出现了相关的新数据集如The New Yorker Caption Contest)。决定如何使用这些幽默信息装备模型,以及哪些其他类型的知识可能是「有价值的」,是令人兴奋的研究方向。

实验结果与结论

研究者在7个视频问答模型(分为基于caption的模型和基于instruction的模型)上进行测试,下表展示了主要实验结果。

在FunQA基准中,H1、C1、M1分别代表三个子集上反直觉的时间戳定位任务,其中衡量指标为IOU。H2、C2、M2代表详细视频描述任务,H3、C3、M3代表反直觉推理任务。

对于更高层次的任务,H4、C4代表为视频起一个恰当而生动的标题。

所有这些任务的答案都是自由文本格式,由此研究者使用以下指标进行衡量:BLEU-4,ROUGE-L,CIDEr,BLEURT和GPT-4。

C5代表给创意视频的创造性打分,其评估方式是预测分数和官方分数之差。

此外,研究者展示了不同模型对于FunQA的响应实例。

图3展示的是VideoChat、Video-ChatGPT和Otter在图中的幽默视频上给出的回复。在任务H2、H3上,VideoChat的表现最好。

在任务H4上,Video-ChatGPT和Otter回答得更好,这与表2中的实验结果一致。

然而,所有模型的答案仍然与正确答案有较大差距,尤其在细节的描述和反直觉的解释上有许多缺点。

总结

总体而言,模型在FunQA数据集上的性能普遍不令人满意。几个关键的发现包括:

1)时间戳定位任务是最具挑战性的。

基于caption的模型通常忽略时序信息,而基于instruction的模型,如Otter,只从特定的帧中获取视觉信息而不引入时序内容。因此,目前没有一个VLM可以解决H1、C1和M1的任务。

2)所有任务都没有明确的赢家。

基于caption的模型在提供详细描述方面表现出色,但在需要推理的任务中表现不佳,导致描述任务(如H2)和推理任务(如H3)之间存在显著的性能差距。

另一方面,基于instruction的模型表现出更强的推理能力,但在描述任务中表现不佳。一种可能的解释是:基于instruction的模型可能在它们的答案中包含过多冗余的信息,导致描述任务性能下降。

3)不同视频类型的性能差异很大。

大多数模型在幽默和魔术视频中可以得到相对准确的答案,但对于创意视频却很难回答问题。这可能是因为幽默和魔术视频通常描述模型以前遇到过的日常生活,而创意视频包含模型从未见过的内容,因此模型难以产生新的想法,导致不相关和错误的答案。

4)自由文本任务的评估指标不足。

传统的衡量标准在自由文本问题上的得分几乎为零,因为它们只关注基础的的文本相似性。研究者发现GPT-4在评估自由文本的深度理解方面显示出一定的能力。然而,仍然存在不稳定的问题,即相同的内容可以得到不同的分数。

5)微调后的Otter在传统指标上表现良好,但在GPT-4评分上落后。

研究者在Dense Caption和FunQA上对Otter进行了微调,Otter(FunQA)相对于Otter(D.C.)表现出了明显的性能优势。虽然与其他基于instruction的模型相比,Otter在ROUGE-L等传统指标上表现更好,但Otter的GPT-4分数表现不佳。

一个可能的原因是,Otter的输入只是从视频中采样的128帧,不足以进行综合推理。Otter在传统指标和GPT-4上的得分之间的差异与前文缺乏评估指标的发现相匹配。

讨论

applenotebook设置

前文提到,相比现有视频问答数据集,FunQA具有深度时空推理及探索幽默感等特点,由此也对模型提出了新的挑战:

1)准确理解信息和长视频:通过对失败案例的分析,研究者发现许多模型都难以准确地描述视频。虽然他们可能擅长检测视频中的物体,但他们在理解连续事件之间的上下文关系时往往会犹豫不决。这表明该领域有必要进一步探索,FunQA可以作为深入探索视频描述的宝贵数据集。

2)逻辑推理:FunQA数据集中视频的主要性质是包含违反直觉和与常识相矛盾的内容。为了让模型理解这些,它们必须掌握“常识”的概念,推断出在正常情况下通常会发生什么,然后用这种视角幽默地解读视频。这就要求模型具有较强的推理能力。如何在模型中注入常识性仍然是一个重要的研究点。

3)额外知识——幽默感:要想解读视频中的幽默,理解幽默的基本原理是至关重要的。这类知识以及其他常识和附加信息可能会增强模型的性能。因此,决定如何整合有价值的知识和辨别什么是“有价值的”是值得进一步探索的主题。

sap行业数字化转型解决方案

针对模型面临的挑战,研究者提出了一些可能的解决方案:

1)模型大小:增加参数的数量是提高模型性能的自然方法。然而,这种方法有其自身的工程挑战,需要在模型优化和部署方面进行改进。模型参数数量与其在FunQA基准上性能之间的关系值得进一步探索,FunQA数据集可以作为优秀测试平台。

2)数据质量:研究者认为这项任务的重点应该放在数据收集上。目前大型动态模型的趋势表明,拥有大量低质量数据远不如拥有少量高质量数据有效。因此,研究者希望社区能够发现真正有助于理解反直觉视频的数据类型。这是一个至关重要的研究方向。

3)训练策略:研究训练策略也很重要。例如,确定从哪种类型的数据开始学习,以及理解课程学习的意义等等。

4)模型协作:研究者认为,也许多个模型以一种优雅的方式协作处理示例可能是提高性能的一种方法。然而,这种方法可能需要更多地关注模型实现的整体效率。

目前工作的局限性:

1)当前FunQA数据集主要包括视频级别的数据和注释,但可以引入更深入的注释来探索视频推理的可能性,例如详细的空间和时间注释,即对应于特定时间轴的字幕和对象级别的注释。

2)原始注释由中文完成。在翻译成英文的过程中,研究者首先使用GPT对中文注释进行润色和补充,使文本尽可能完整。然而,由于两种语言之间的文化差异,注释间可能仍然存在分歧。

新茶饮行业分析

未来的工作

研究者希望用更深度、更多样的注释来扩展FunQA数据集。

此外,将探索新的指标以更好地评估模型的性能,特别是在缺乏深度指标的开放式问题中。

现代途胜空间

最后,研究者希望为模型向更深层次的视频推理发展提供方向。

基于FunQA的算法大赛

2023年7月,奖金100万美元的算法大赛FunQA Challenge正式开启报名。

具体详情地址:

https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50154a0ed647faca623a&award=1,000,000


返回网站首页

本文评论
iPhone为什么没有地震预警?网友希望库克早点加上_苹果手机有地震预警系统吗
凤凰网科技讯8月6日消息,中国地震台网正式测定:08月06日02时33分在山东德州市平原县(北纬37.16度,东经116.34度)发生5.5级地震,震源深度10千米。在地震波到达前,不少网友在手机上...
日期:08-06
当全职妈妈遇上趣头条号育儿课:读者变成了平台创作者
  “全职妈妈,大概是这世界上最辛苦的工作。不但全年无休、没有工资,还必须爱岗敬业、无怨无悔。同时,这又是一份最没成就感的工作。孩子表现乖巧出色,那是“咱们的基因好”;...
日期:05-14
多省市道路管控措施落地 百度地图上线相应道路信息引导用户出行
  新型肺炎依然肆虐全国,1月26日消息,全国多地开始实施道路管控措施,虽然出行人数已大幅减少,但道路管控依然对个人出行造成不同程度的影响。据悉,百度地图已上线全国各地封路...
日期:06-06
马斯克封号上瘾?推特将封杀宣传对手的账号 有一家除外「马斯克推特最新新闻」
凤凰网科技讯 北京时间12月19日消息,推特周日表示,公司将删除专为推广其他社交平台以及包含这些平台链接或用户名的内容而创建的帐户。此前,推特已经因为删除多位记者账号引发...
日期:12-19
排面拉满!1000台中通客车出口吉尔吉斯斯坦 总统亲自来提车
5月20日,以绿色新时代共建新丝路”为主题,吉尔吉斯斯坦1000台中通客车首批车辆下线仪式,在山东聊城中通客车股份有限公司隆重举行。吉尔吉斯斯坦总统扎帕罗夫一行受邀参加下线...
日期:05-21
《阿凡达2》成2022进口片首日票房冠军!时隔69天单日再破亿 豆瓣8.4分
《阿凡达2:水之道》今天已经在内地正式公映,不少粉丝都第一时间走进电影院观看。猫眼专业版数据显示,《阿凡达2:水之道》首日票房超9523.2万,超《侏罗纪世界3》首日票房成绩,成202...
日期:12-16
雅虎宣布今年将裁员20% 本周将解雇1000人_雅虎裁员事件
  讯 北京时间2月10日早间消息,据报道,当地时间周四,美国老牌门户网站雅虎发布一份声明称,到今年年底前,该公司将解雇约20%的员工,其中本周之内,将立刻解雇1000名员工。  据悉,...
日期:02-13
张颂文说等了高启强好多年 《狂飙》剧中是双机党:一台苹果一台华为
春节前夕开播的两部电视剧《三体》和《狂飙》,均收获了不俗口碑和收视表现,后者目前的豆瓣评分更是涨到9.1新高。最近在热搜榜,与《狂飙》相关的话题层出不穷。有数码博主注意...
日期:01-30
英特尔为量子计算开发者发布软件平台,帮助构建量子算法_英特尔量化范围
3月1日消息,美国当地时间周二,芯片巨头英特尔发布了一个新的软件平台,供开发者构建量子算法。最终,这些算法可以在英特尔试图构建的量子计算机上运行。联想小新pro16酷睿版首发...
日期:03-01
投资 20 亿元,欣旺达拟在湖南建设智能硬件综合生产基地,涉及 TWS 耳机、智能音箱等产品
  从欣旺达获悉,近日,欣旺达子公司深圳市欣智旺电子有限公司拟与湖南宁乡经济技术开发区管理委员会签订合同书,计划在宁乡经开委辖区内投资建设“欣智旺智能硬件宁乡综合生...
日期:07-17
把女包“死号”做到年销量百万,90后辍学少年是如何逆袭的?
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:Bamboo,授权转载发布。把一个同行口中的“死号”做成抖音女包销售额Top10的商家需要多久?女包品牌“Oinny”主理人小北用了...
日期:08-26
首款天玑9000+中端旗舰!iQOO Neo7官宣10月20日发布「iqoo 天玑820」
昨天,iQOO官方发布了新机iQOO Neo7的预热消息,并打出了天玑调校之王”的口号。今天,iQOO官方放出了与周深合作的品牌MV,并在结尾公布了iQOO Neo7的发布时间:10月20日19:00。三星s...
日期:10-13
芯片短缺导致全球新车减产500万辆_AFS:缺芯已致 2022 年汽车产量缩水超 52 万辆,一周缩减量增四成
  权威的预测机构 AutoForecast Solutions(AFS)最新报告指出,2022 年以来,缺芯已导致全球汽车产量缩减约 527,400,缩减量较该机构一周前预计的 370,500 辆增长了 42.4%。...
日期:10-11
创维X8系列要第三方软件?当贝市场来教你!_创维32x8安装第三方软件
  创维电视作为一家老牌民营电视品牌企业,其生产的电视也广受好评。无论是销量、还是硬件配置、内容数量,都位居同行业前列。许多人电视到手后,都会问怎么安装第三方软...
日期:06-05
女子在千万网红直播间买芒果吃出蛆:孩子吃了肚子疼「吃芒果吃到蛆虫怎么办」
3月31日消息,据搜狐千里眼报道,山东济宁徐女士在某千万网红直播间买了三箱芒果,结果第一个快吃完的时候,发现里面有数只白色蛆虫在爬。徐女士称,现在吃饭都没胃口,想起就恶心,孩子...
日期:04-01
疫情冲击游戏行业:玩家回归现实世界 游戏公司销售滑坡_疫情对游戏行业的影响分析
支持oppo闪充vooc的充电宝华为p20曝光tcl98寸评测iphonex摄像头闪光灯失灵   讯 北京时间8月15日早间消息,据报道,近几个月,随着疫情后玩家逐渐回归现实世界,同时生活成本的上...
日期:08-16
中国第一家b2c企业_2010年中国B2C企业融资额超过10亿美元
  2010年中国B2C企业融资额超过10亿美元。而今年的融资金额将再创新高,市场竞争将更加激烈。但是这几年,一些B2C前辈企业已经笼络了大批的忠实用户,其黏度之高让后起的B2C商...
日期:07-26
暗黑4经济系统崩盘,玩家豪掷300亿金买装备
一周前,忙得焦头烂额的暴雪因为《暗黑破坏神4》内出现了物品与金币复制BUG,紧急关闭了玩家交易系统。通过这个BUG,一些玩家可以在短时间内刷出数十亿金币,而这些流入市场的“黑...
日期:08-21
400一斤仍供不应求 任意抓知了破坏生态?专家回应:不会「知了多少钱1斤?」
快科技7月18日消息,时间来到7月中旬,不仅天气非常炎热,树上不眠不休的知了也容易让人烦躁。不过,也有很多人当这是人间美味,甚至被炒作起来。据报道,目前市面上处理过的知了肉甚至...
日期:07-18
为什么要设置朋友圈3天可见「朋友圈设置三天可见的理由!手机得这么设置才能看」
中关村在线消息:11月1日,据相关爆料,朋友圈设置三天可见的理由的登上热搜,可能很多小伙伴的交友软件由于种种原因都设置了三天可见选项,让列表内的朋友仅能看到自己三天的动态。...
日期:11-02