您的位置:首页 > 互联网

navimow「最新NaViT模型炸场!适用任何长宽比+分辨率,性能能打的Transformer」

发布时间:2023-07-22 16:41:24  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】无视长宽比及分辨率!百变适用Transformer。

今天要介绍的是NaViT,这是一种适用于任何长宽比以及分辨率的Transformer模型。

navi entropiq

在使用计算机视觉模型处理图像之前,要先将图像调整到固定的分辨率,这种方式很普遍,但并不是最佳选择。

Vision Transformer(ViT)等模型提供了灵活的基于序列的建模,因此可以改变输入序列的长度。

多屏协同是华为专利吗

在本篇论文中,研究人员利用NaViT(原生分辨率ViT)的这一优势,在训练过程中使用序列打包,来处理任意分辨率和长宽比的输入内容。

在灵活使用模型的同时,研究人员还展示了在大规模监督和对比图像-文本预训练中训练效率的提高。

NaViT可以高效地应用于图像和视频分类、物体检测和语义分割等标准任务,并在鲁棒性和公平性基准方面取得了更好的结果。

在推理时,输入分辨率的灵活性可用于平滑地控制测试时间的性价比权衡。

研究人员相信,NaViT标志着脱离了大多数计算机视觉模型所使用的标准CNN设计的输入和建模流水线,代表了ViTs的一个有前途的方向。

如下图所示,NaViT在预训练期间(左图)有显著的计算效率,并可用于下游微调(中图)。

且单个NaViT可成功应用于多个分辨率(右图),在性能和推理成本之间实现平衡。

navimow

要知道,深度神经网络通常以成批输入进行训练和运行。

为了在硬件上实现高效的处理,意味着批次形状是固定的,反过来又说明计算机视觉应用的图像大小是固定的。

这一点再加上卷积神经网络历来存在的架构限制,导致研究人员要么调整图像大小,要么将图像填充为固定大小。

但这两种方法都存在缺陷:前者损害性能,后者效率低下。

ImageNet、LVIS和WebLI分别作为分类、检测和网络图像数据集的代表实例,对其长宽比的分析表明,大多数图像通常不是正方形的,如下图所示。

navimow

在语言建模中,通常通过示例打包绕过固定序列长度的限制:来自多个不同示例的标记被组合在一个序列中,这可以显著加快语言模型的训练。

通过将图像视为补丁(标记)序列,研究人员发现,Vision Transformers也能从同样的范式中获益,研究人员称之为Patch n' Pack。

应用这种技术,可以在原有的分辨率的图像上训练视觉transformer。

示例包装后可以在保持长宽比的情况下实现可变分辨率图像,从而减少训练时间,提高性能和灵活性。

研究人员展示了为支持Patch n'Pack而需要修改的数据预处理和建模。

navimow

研究人员在NaViT中使用的基本架构沿用了Vanilla ViT,并进行了必要修改。

此外,研究人员还对ViT进行了一些小的改进。

研究人员在两种设置中对NaViT进行预训练:在JFT-4B上进行分类训练和在WebLI上进行对比语言图像训练。

通常情况下,对于JFT,在训练前会对图像进行截取。而在这两种情况下,图像都会被调整为正方形。

除非另有说明,所有NaViT模型都是在没有这些操作的情况下进行预训练的,并保留了原有的长宽比。

NaViT使用FLAX库,在JAX中实现,并在Scenic中进行构建。

这里研究人员进行了两种不同的与训练——

分类预训练和对比预训练。

nativization model

上图展示了通过序列打包实现的连续token丢弃策略,提高了表现性能。

研究人员对论文中所介绍的的因子化嵌入及其设计选择进行评估。

他们关注的是绝对性能,以及对训练体系之外的分辨率的推断。

为了测试这一点,研究人员在JFT上对NaViT-B/16模型进行了200k步的训练,分辨率为R∼U(160,352)。

在不修改嵌入变量的情况下,研究人员评估了一系列分辨率下的性能,将ViT-B/16与在固定分辨率256下训练的ViT-B/16进行比较。

对于相同数量的图像,在新的分辨率下使用位置嵌入的标准插值进行了评估。

下图则是测试结果。

很明显能发现的是,因子化方法优于基线ViT和Pix2struct的学习型二维嵌入,后者尤其难以泛化到更高分辨率。

NaViT在ImageNet-A上的表现也更好,因为ImageNet-A上有许多长宽比极高的图像,而且重要信息都在图片中心之外。

nativization model

下图展示了使用NaViT-L/16或ViT-L/16评估根据公平性相关信号训练的注释器的准确性。

左图:NaViT提供了更好的表示方法,提高了注释器的准确性。

右图:与将图像大小调整为正方形相比,在NaViT中使用原始长宽比可获得更高的性能。

navimow

研究人员已经证明,Patch n' Pack--序列打包在视觉变换器中的简单应用--可显著提高训练效率。由此产生的NaViT模型可在推理时应用于多种分辨率,并以低成本适应新任务。

Patch n'Pack使得以前因为需要固定形状而进行不下去的各种研究成为可能,包括自适应计算和提高训练和推理效率的新算法。

详细研究请参考原论文。因能力有限,本文翻译中若有错讹,深表歉意。

参考资料:

https://arxiv.org/pdf/2307.06304.pdf


返回网站首页

本文评论
4个小号给大号浇水 缴电费再退骗蚂蚁森林能量被封号!法院判了
2月7日消息,据杭州互联网法院消息,近期,该院判决了两起涉及套取蚂蚁森林绿色能量的案件。案例一:购买绿色能量、开小号浇水”,哪些种树”行为构成违约?案例记录显示,蚂蚁森林用户,赵...
日期:02-07
掌阅科技 年报_掌阅科技前三季度净利润1.66亿元 同比增长53.75%
10月24日消息,掌阅科技发布2020年第三季度业绩公告,报告显示,掌阅科技前三季度营收约14.95亿元,同比增长7.83%;净利润约1.66亿元,同比增长53.75%;基本每股收益0.41元,同比增长51.8...
日期:08-01
腾讯携手Unity:推出定制化实时导航3D地图
快科技4月25日消息,近日,第二十届上海国际汽车工业展览会召开,在会上,腾讯地图展示了与Unity中国合作推出的智能导航渲染技术。在此次合作中,Untiy方面基于腾讯提供的脱敏数据生...
日期:04-25
2022最后一跌!今起油价下调:加满一箱92号汽油少花19.5元_国内成品油价迎年内首降,加满一箱92号汽油少花16元
油价迎来今年最后一次调整,还是下跌,这将是2022年度最后一次调价。据国家发改委消息,根据近期国际市场油价变化情况,按照现行成品油价格形成机制,新一轮成品油调价窗口将于今天0...
日期:12-20
包凡×杨晓磊:投资最难的是跟自己斗,人不能活在经验里
  对话/杨晓磊   编辑/曹玮钰   包凡发现了问题。他说,做投资的几年间,自己的情商“变低了”,这或许让他本人都有点惊讶。以前做投行,不谦虚地讲,他称得上处理人际关系的...
日期:07-31
押金彻底凉凉?ofo小黄车已无法登陆「ofo小黄车押金是不是退不了了」
2月21日消息,近日,据网友反映,ofo小黄车无法登陆,客户端已经无法接收到短信验证码。经测试,ofo小黄车苹果和安卓客户端已无法登陆,也收不到短信验证码。使用ofo小程序测试,则提示网...
日期:03-01
小米13曝有10款颜色:卖到4500「小米11几个色」
小米目前还没有官宣,但有消息称小米13将会在下周发布,而目前产业链公布了小米13手机的外观,配色高达10款,而且还都采用直屏的方案,而小米13Pro则延续上一代的曲面屏方案。“华为...
日期:11-27
iphone专利「苹果4G专利侵权案件在英上诉遭驳回 面临70亿美元赔偿」
7月5日消息,据外媒报道,英国上诉法院驳回了苹果公司的上诉请求,称苹果的iPhone和iPad等设备侵犯了美国专利公司Optis两项4G通信专利。因此苹果仍需支付70亿美元的赔偿。法院还...
日期:07-05
泡泡玛特新品体验官「每年超200款新品,在泡泡玛特私域中起到什么作用? | 案例手册」
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:见实,授权转载发布。不久前,见实发布了泡泡玛特私域案例手册,“运营篇”中我们详细拆解了品牌基于腾讯“四力模型”构筑...
日期:06-08
寒潮来袭,气温骤降「今冬以来!此次寒潮局地气温暴跌20℃:将发橙色预警 要冻哭了」
11月27日上午10时,中央气象台继续发布寒潮黄色预警,官方更是将其称为今冬以来最强寒潮。中央气象台将于今天下午升级发布寒潮最高等级的橙色预警。预报称,11月27日至30日,寒潮天...
日期:11-30
喜欢麻辣爆炒却不愿吸入油烟异味?别急,厨房达人必备这款油烟机
  前两天,小编又被邻居家做饭时飘来的重重辣椒味呛出了眼泪。每次遇到这类情况,小编都有种冲动,想要向邻居喊一句:兄弟,你家真该换个油烟机了!   确实如此,要是没选对油烟机,...
日期:07-03
大疆DJI Mini3:制霸你的朋友圈,口袋中的航拍大师「dji 大疆 dji mini 2」
作者:陈功前言到现在都记得曾经有个飞手告诉我:一旦入了无人机的「坑」,我敢打赌,你再也出不来了!为什么这么说呢?因为无人机能够带来的「飞翔体验」实在太爽,谁飞谁知道。用5个理...
日期:12-12
荣耀magicbook15i7评测_荣耀Magicbook Pro魅海星蓝发布:R5+16GB,4799元
  12月22日消息 在今年9月份的荣耀20S发布会上,荣耀推出新款的MagicBook Pro笔记本,搭载了AMD H标压移动处理器。现在,荣耀MagicBook Pro又推出了一款新配色“魅海星蓝”,官...
日期:07-06
MCN和达人的人性游戏:谈钱,还是感情?_达人与mcn机构分成比例
声明:本文来自于微信公众号 新榜(ID:newrankcn),作者:云飞扬1993,授权转载发布。今年以来,网红行业至少发生了两件大事。2月2日,杭州微念退出四川子柒文化传播有限公司,彻底失去“李子...
日期:03-09
B站国创动画发布会今晚开启:《三体》动画或正式定档_三体动画版什么时候开播
根据B站官方消息,2022-2023 B站国创动画发布会将于今晚19:00正式开启,届时将公布新一批国创动漫的新消息。其中最受期待的就是国产科幻神作《三体》动画了,这是由国内艺画开天...
日期:11-01
下月开始:Win11要强制更新了_windows11要更新吗?
快科技6月28日讯,在Win11 21H2/22H2之后,微软为了加快Win11的更新频率,推出了所谓Moments Update,也就是时刻更新。苹果15最新爆料信息苹果将停产这款机型其中,Moment 2于2月份推...
日期:06-29
周鸿祎:元宇宙的未来是产业元宇宙_腾讯投资的元宇宙公司
8月30日消息,8月27日,360集团创始人、董事长周鸿祎在第三届上海创新创业青年50人论坛上发表主旨演讲,分享了对创新创业的思考。周鸿祎表示,产业数字化的过程中,企业级服务市场依...
日期:09-12
特斯拉雨雪模式「马斯克转发特斯拉远程融雪暖车功能 引网友热议」
凤凰网科技讯 北京时间2月1日消息,马斯克转发了特斯拉官方推文,推文视频中展示了特斯拉汽车应用程序新功能,该功能可以远程融化车身上的积雪,并对车内进行加热,这一视频的内容引...
日期:02-01
ai直播怎么弄「AI改造直播间」
声明:本文来自于微信公众号 光子星球(ID:TMTweb),作者:何芙蓉,授权转载发布。“欢迎xx来到直播间”“我们这款产品……”凌晨,打开抖音、淘宝、携程等平台,仍然有主播在直播间循环...
日期:06-14
20万奖池,环信MQTT创意编程挑战赛开启!
  进入大赛官网:https://www.easemob.com/event/mqtt/     大赛背景   随着云通讯行业持续增长,5G建设逐步推进、音视频技术快速迭代,都是为了满足人与人、设备与人...
日期:12-19