您的位置:首页 > 移动互联

腾讯优图9篇论文入选ACM MM 2021 含弱监督图像、人脸安全等领域

发布时间:2022-07-27 12:10:09  来源:互联网     背景:

  10月20日,第29届ACM国际多媒体会议(简称ACM MM)在成都正式举行。本次会议将针对单个媒体和跨界整合多媒体元素的最具创新性和影响力的顶级热点研究成果进行分享交流。此外,在视频编码、视觉识别、大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等研究方向有多场精彩的学术分享报告,将充分展示全球高校、研究机构及高新企业在多媒体研究方面的最新进展。

  作为世界多媒体领域最重要的顶级会议和中国计算机学会推荐的该领域唯一的A类国际学术会议。本届ACM MM吸引了国内外多媒体领域中的知名厂商和学者广泛参与,将有70场精彩报告,其中囊括了6场国内外顶尖学者的主旨报告、13场重磅专题研讨、51场国内外知名学者及学术新星的学术报告。

科沃斯机器人公司年会

  其中,腾讯优图实验室9篇计算机视觉相关的优质论文成功入选,涵盖弱监督图像描述及定位、表格结构识别、人脸安全等多个研究方向,这些技术创新面向智慧城市、智慧文娱、智慧制造等场景的落地应用,助力进一步提升AI技术能力,推进全球人工智能的发展。

  深耕计算机视觉领域成效显著 9篇论文入选彰显强大实力

  Distributed Attention for Grounded Image Captioning

  弱监督图像描述及定位近年来逐渐受到国内外研究机构以及工业界关注。该任务是指对给定的图像自动生成一句话描述图像的内容,同时预测出描述中名词对应的目标位置。已有的工作主要通过正则化技术依靠注意力机制在生成图像描述的同时预测名词对应的目标的位置。这些方法的性能距离全监督的图像描述及定位有很大的差距。其中最主要的问题在于,依靠注意力机制的大部分方法预测结果往往集中于目标的最具判别性的局部位置,无法完整的预测目标的整体内容。基于此,我们提出一种十分简单且有效的分布注意力机制,挑选多个语义相同但位置不完全重合的目标之后进行聚合,从而得到更加完整的目标位置。在公开的Flickr30K Entities数据集上,保持图像描述性能不降的情况下大幅刷新目标定位性能SOTA,与全监督的方法性能持平。

  Discriminator-free Generative Adversarial Attack

格力空调直播秒杀

oppo r15首发价

  深度学习网络容易受到对抗样本的影响,在图像上加入一些不显眼的扰动后基于DNN的识别任务可能失效。目前大多数对抗攻击方法基于梯度搜索,这类方法生成对抗样本的耗时长,也会受到显存资源不足的影响。基于生成的方法(GAN)可缓解这些问题,但这类方法一方面训练比较难收敛,另外生成的攻击样本效果和视觉质量不稳定。我们发现判别器在对抗生成网络中并非必不可少,提出基于显著性区域的对称自动编码器方法(SSAE),该方法由显著性响应模块 (the saliency map)和特征角度正则解耦模块 (the angle-norm disentanglement)组成,用生成的显著性响应图去关注标签相关的区域,不再依赖判别器。在图像识别和图像检索任务上的大量实验证明SSAE方法生成的攻击样本不仅可以在主流网络模型上攻击效果好,同时也具有很好的视觉质量。

  Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator

  本文主要针对表格结构识别这一具有挑战性的问题进行研究。目前,业内方法往往采用基于图的上下文累积器,来稀疏地建模表格元素的上下文关系。然而,基于图的约束可能会引入过强的归纳偏置,无法充分地表示复杂的表格关系。为了让模型从数据中学习更合适的归纳偏置,本文引入Transformer作为上下文累积器。Transformer以密集上下文作为输入,同时由于的归纳偏置的弱化,Transformer对数据的规模要求更高,并且训练过程可能会不稳定。为了解决上述问题,本文设计了FLAG (FLexible context AGgregator) 模块,它将Transformer与基于图的上下文累积器以一种自适应的方式结合在一起。基于FLAG,本文设计了一个端到端的网络,称为FLAG-Net ,该网络不需要额外的OCR信息,并且可以灵活地调整密集上下文(dense context)和稀疏上下文(sparse context)的累积,进行表格元素的关系推理。本文还进一步探索了FLAG中的上下文选择模式,这对于识别表格结构是至关重要的。在标准测试集上的实验结果表明,本文提出的FLAG-Net的性能大大超过业内其他方法。

  LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context

  相对于视频序列中的一般性运动检测,原子级的目标行为(如交谈,拾取,瞭望)的判断更加依赖于视频中上下文依赖关系的挖掘,同时这种依赖关系在不同的时间尺度上呈现若相关特性。本文将视频目标的行为与其以来关系解耦为稠密的短时上下文依赖(Dense Short-term Context)和稀疏的长时上下文依赖 (Sparse Long-term Context),并通过概率图模型将两者解耦为条件独立的交互关系分别辅助目标原子行为的判别,同时引入了一种近似高阶的注意力机制(High-Order Attention Mechanism),在计算复杂度不提升的条件下,将传统的注意力模型从一对一推广到一对多的交互关系。在AVA以及Hieve等基准测试集上表明,这种长短时依赖独立推断的机制能够有效帮助行为检测器正确推断目标行为。

荣耀商城双十一

  ASFD: Automatic and Scalable Face Detector

  在目前主流的目标检测器的设计范式中,特征增强以及特征融合模块已经成为了增强特征判别能力,提升检测效果的必备组件,但是由于数据分布上的差异,一般性目标检测网络中的特征增强模块并不能在人脸检测场景中带来稳定的提升。为此,本文系统性地分析了数据分布差异对于特征增强和融合模块效果的影响,并据此针对人脸检测场景,提出了一个可微分的自动化特征增强模块搜索流程AutoFAE, 同时,本文基于改搜索流程建立了用于网络搜索的超集,以满足不同推理速度约束下搜索到最优性能的模型结构。在主流的人脸检测数据集Wider-Face, FDDB上,本文搜索的人脸检测架构能够在相同的推理速度下达到更好的检测效果。

  Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing

汉能集团李河君最新消息

  随着多样化人脸攻击形式的出现,活体检测的泛化性受到越来越多关注。现有方法往往直接对网络学习的特征进行约束,然而忽略了模型特征提取的过程,尤其是标准化的影响。 针对该问题,本文提出了一种自适应标准化表征学习的活体检测新方法。具体而言,本文设计了一个自适应特征标准化模块(AFNM),该模块根据样本特征自适应地结合BN和IN标准化方式。并在在训练过程中结合元学习框架,在meta-test阶段重点学习AFNM模块,从而提升泛化性。此外,为进一步学习域无关的活体表征,本文设计了双重校准约束(DCC),包括域间兼容损失(IDC)和类间分隔损失(ICS)。多个学术数据集上实验结果表明我们方法优于现有方法,为实际场景下活体技术的应用提供了有效框架。

  RecycleNet: An Overlapped Text Instance Recovery Approach

腾讯优图9篇论文入选ACM MM 2021 含弱监督图像、人脸安全等领域

  文本图像识别是理解多媒体媒介的关键技术手段。主流的设计范式关注独立文本行的精准识别,但这些方法在复杂真实场景如财务票据和学生作业簿上受到了严峻的挑战。简单通过优化识别方法本身或数据增强难以处理手写/印刷文本或印刷/印刷文本的套打(overlapping)。基于这个观察,本文介绍了RecycleNet,一个自动分离套打文本实例的策略。RecycleNet的关键设计在于定位并重用(recycle)了文本实例间套打的像素区域,将这些区域归还到其归属的全部实例,保障了分离后实例的完整性。RecycleNet平行于现有的文本识别解决方案,可作为可插拔模块,用很小的开销提升现有识别基线的精度。

  Spatiotemporal Inconsistency Learning for DeepFake Video Detection

腾讯优图9篇论文入选ACM MM 2021 含弱监督图像、人脸安全等领域

  随着人脸生成技术的快速发展,人脸伪造检测也受到越来越多的关注。现有的方法往往将人脸伪造检测问题建模为二分类问题并提出了基于图像和视频的检测方法。 本文从一个新的角度出发,将该任务建模为时空不一致性学习过程,通过抓取伪造视频在空间和时序运动中的伪造痕迹来进行真假鉴别。具体地,本文设计了一个新的STIL单元,主要包括空间不一致性模块(SIM),时间不一致性模块(TIM)以及信息互补模块(ISM)。其中SIM采用具有残差结构的注意力机制重点捕捉空间不一致,TIM分别从水平和竖直两个方向捕捉时序运动中的不一致,ISM则进一步促进空间不一致和时序不一致间的信息交互。STIL单元非常灵活,可以插到大多数已有的2D网络中。大量的实验表明我们提出的方法在多个数据集上优于现有的方法,同时详细的可视化也充分证明了我们方法的可解释性。

  以研促产 腾讯优图实验室通过AI助力数字经济发展

  作为腾讯旗下顶级的人工智能实验室,腾讯优图实验室始终聚焦计算机视觉技术,专注人脸识别、图像识别、OCR等领域,致力于在工业制造、医疗应用、金融保险、娱乐社交等多行业场景的研究与落地。

  凭借在视觉AI技术上的研究成果,腾讯优图目前已拥有超过1000件全球AI专利,更有300余篇论文被AAAI、ICCV等国际顶级AI会议收录。同时,腾讯优图还通过腾讯云共输出超过20项AI解决方案,100+AI原子能力,助力各行各业实现数字化转型。

  此外,腾讯优图还打造了如跨年龄AI寻人、青少年内容审核、AI探星等技术能力,践行腾讯“科技向善”的使命和愿景。未来,优图实验室将继续专注人工智能技术发展,通过推进AI基础设施研发的形式为产业数字化转型提供助力,促进数字经济加速发展。


返回网站首页

本文评论
当贝X3画质好吗怎么样,最新3.1系统版本画质真实接近原画(当贝x3 分辨率)
  近日,来自官方消息,目前国内热卖爆款当贝X3激光投影仪,更新了全新3.1版本,共计8大优点。小编有注意到其中对当贝X3画质色彩效果进行了大幅优化,画面更接近真实,那实际效果怎么...
日期:05-12
惠上云更简单 华为云618直播企业应用专场即将开启!
  数字经济蓬勃发展,数字化转型成为各行业要解决的共同课题。大企业选择自研云服务产品来满足企业内部需求和部分外部需求。但中小企业却始终受困于上云成本高、耗费时间长...
日期:05-03
2021年双十一有哪些值得购买的家用电器?极米投影仪、科沃斯扫地机器人上榜
  ​ 双十一这不马上就要到了嘛!!那些纸巾啊垃圾袋啊啥的,暂时往旁边放一放,家电才是省钱大头!下面就一起来看看有什么值得买的双十一好物吧!苹果手机ceo库克访华  投影...
日期:07-26
“加”点猛料!新锐商务笔记本ThinkBook 14+ 仅需4999元即可入手!「ThinkBook 15 全新」
  ThinkBook作为联想旗下主打职场新锐的笔记本品牌,自诞生以来围绕多元化的商务场景需求推出了众多创新产品,受到新青年的认可与信赖。毕业季来临,年轻人将走上工作岗位,成为...
日期:07-29
上京东购iQOO 9超划算!除了可享24期免息,还有耳机相送(iqoo8优惠)
  近段时间,国产手机市场上非常热闹!先后有多个厂商发布了自家的新品旗舰,这些新机各自具有不同的亮点,能让不同需求的消费者在购机时找到更适合自己的机型。比如iQOO推出的i...
日期:11-19
轻盈手感梦幻色设计 荣耀X30i联合壹心理”给你的生活加点高光“
  11月8日,荣耀发布荣耀X30i蔷薇金和钛空银两款配色态度海报,宣布荣耀X30i将联合壹心理发起的给生活加点高光活动,发布《高光色生活指南》。借助本次活动,荣耀X30i希望让每一...
日期:07-26
Z8小天才_走进小天才新品Z8,了解“行业第一”的之所以然
  世界上公认的第一部智能手机IBM Simon,诞生于上世纪的1993年,掐指一算,智能手机走过了29年的发展,而手机市场也从增量市场成了严重内卷的存量市场。  不过,说起同为智能电...
日期:07-14
面对超新Z世代,火山引擎与快看让视频创作无门槛
  近年来,不少国漫火到出圈,这些内容不仅能以漫画形式持续连载,还能通过社区、动画、长短视频等二次创作方式实现全媒体传播。在步入视频时代后,能够束缚内容传播的早已不是纸...
日期:09-09
Aqara绿米荣登消费者口碑品牌榜,一流质检或成行业破圈密钥(aqara绿米官网)
  全屋智能家居品牌Aqara绿米凭借着在行业中遥遥领先的技术实力、一流质检标准下的产品质量与全面务实的五星服务,在行业与用户群体中口碑载道。Aqara绿米近期也因此荣登...
日期:10-07
安超云生态|安超云与长城超云完成兼容互认证 携手打造协同生态
  ​云计算、大数据、人工智能等新兴技术推动数字化社会转型,社会各单位都逐步将业务搬上云端,实现了数字化、智能化改变。随着各领域业务的网络化、IT架构的多样化,IT环境的...
日期:07-14
TX加速器已调整,推荐AK加速器超长免费+白嫖_TX 加速器
  腾讯加速器官方发布公告宣布,因业务运营策略调整,2022年5月31日起腾讯网游加速器将升级为腾讯游戏管家,之后将仅支持国服游戏加速,对于受影响的会员用户已开放退款通道。 ...
日期:07-28
山东能源张海龙_争当“碳”路先锋,海尔双项目入选山东省能源领域推广目录
  近日,山东省能源局公布了《山东省能源领域新技术、新产品、新设备目录(2022年度)》(以下简称《目录》),来自新能源领域、传统能源领域、能源数字化领域等6个领域共57个项...
日期:10-13
童程童美首席教育官孙莹:什么是真正的科技素质教育_童程童美未来教育研究院
  5月18日,达内教育集团CEO、童程童美未来教育研究院首席教育官孙莹出席“2021ACE全球素质教育行业峰会”。在峰会领袖论坛上,孙莹以“学习的升级”为主题,分享了童程童美在...
日期:07-29
低碳峰会2021_2022航嘉低碳联盟首届峰会顺利召开
  春回大地,万物复苏,柳绿花红,莺歌燕舞。2022年4月19日下午,在改革开放的前沿阵地——深圳,航嘉股份执行总裁刘茂起作为航嘉低碳联盟首任会长发表了以“低碳科技赋能能源产业...
日期:07-14
中国移动和包焕新升级 打通一站式数字生活服务
  11月2日,2021中国移动全球合作伙伴大会产品创新融合发布会在广州举行。会上,中国移动多个5G+数智化前沿科技成果缤纷亮相。中移动金融科技有限公司副总经理张伟聪将焕新升...
日期:07-26
TCL空调新风_立冬过后正式入冬,TCL卧室新风空调以新风带来健康冬日
  伴随着立冬的来临,冬天也将正式登场了。作为冬季的起点,立冬意味着万物进入休养状态,人们在辛苦一年后自此开启了享受丰收、休养生息的模式,在悠闲舒适中静待新一年的到来。...
日期:07-26
湘约未来,共话计算产业新格局 2021世界计算大会在湖南长沙开幕_2021年长沙交流会
  9月17日上午,由湖南省人民政府、工业和信息化部主办的“2021世界计算大会”在湖南长沙国际会议中心开幕。湖南省委书记、省人大常委会主任许达哲出席大会开幕式并致辞,省...
日期:07-27
投影仪幕布怎么选?当贝X3 Pro搭配抗光幕布打造超氛围影院「当贝x3投影仪对比度」
  想要打造自己的家庭影院,幕布也很重要,幕布承担着展示高清效果的作用,随着技术的不断更新升级,幕布的种类也开始变的繁多,不同的空间大小,需求的家庭影院幕布也不同,那么家庭影...
日期:09-07
极米z6上市_极米双十二GMV破亿,NEW Z6X单品销量超万台
  2021年最后一个电商大促节“双十二”落下帷幕,极米科技以亮眼的成绩圆满收官。官方总战报显示,极米全网成交总额(GMV)破亿,同比增长超160%。其中官网GMV同比增长超120%,天猫...
日期:07-25
小派vr 4k pimax_小派发布行业首款8K双模一体机Pimax Crystal,让VR清晰度达到全新高度
  小派科技全球线上发布会Pimax Crystal Launch Event于北京时间6月1日凌晨4:00 GMT+8(美国时间5月31日13:00 PDT)在美国加利福尼亚州举行。小派科技正式发布了旗下第一...
日期:07-14