您的位置:首页 > 互联网

transformer「ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞」

发布时间:2024-01-19 14:45:58  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】当前的视觉模型哪个更好?Meta团队最新一波研究来了。

如何根据特定需求选择视觉模型?

ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较?

来自MABZUAI和Meta的研究人员发表的最新研究,在非标准指标上全面比较了常见的视觉模型。

论文地址:https://arxiv.org/pdf/2311.09215.pdf

就连LeCun称赞道,非常酷的研究,比较了相似大小的ConvNext和VIT架构,无论是在监督模式下训练,还是使用CLIP方法进行训练,并在各种属性上进行了比较。

超越ImageNet准确性

计算机视觉模型格局,变得越来越多样复杂。

从早期的ConvNets到Vision Transformers的演进,可用模型的种类在不断扩展。

类似地,训练范式已经从ImageNet上的监督训练,发展到自监督学习、像CLIP这样的图像文本对训练。

在标志着进步的同时,这种选择的爆炸式增长给从业者带来了重大挑战:如何选择适合自己的目标模型?

一直以来,ImageNet准确率一直是评估模型性能的主要指标。自从引发深度学习革命以来,它已经推动了人工智能领域显著的进步。

不过,它却无法衡量因不同架构、训练范式和数据而产生的细微差别的模型。

如果仅根据ImageNet的准确度来判断,具有不同属性的模型可能看起来很相似(图1)。随着模型开始过度拟合ImageNet的特性,精度达到饱和,这种局限性就会变得更加明显。

为了弥补差距,研究人员对ImageNet准确性之外的模型行为进行了深入探索。

为了研究架构和训练目标对模型性能的影响,具体比较了Vision Transformer (ViT)和ConvNeXt。这两种现代架构的ImageNet-1K验证精度和计算要求相当。

此外,研究对比了以DeiT3-Base/16和ConvNeXt-Base为代表的监督模型,以及OpenCLIP基于CLIP模型的视觉编码器。

结果分析

研究人员的分析旨在,研究无需进一步训练或微调即可评估的模型行为。

这种方法对于计算资源有限的从业人员尤为重要,因为他们通常依赖于预训练模型。

具体分析中,虽然作者认识到对象检测等下游任务的价值,但重点是那些能以最小的计算需求提供洞察力的特性,以及反映对真实世界应用非常重要的行为的特性。

模型错误

ImageNet-X是一个对ImageNet-1K进行了扩展的数据集,其中包含16个变化因素的详细人工标注,从而能够深入分析图像分类中的模型错误。

它采用错误率(越低越好)来量化模型在特定因素上,相对于整体准确性的表现,从而对模型错误进行细致入微的分析。ImageNet-X 的结果表明:

1. 相对于其ImageNet准确性,CLIP模型比受监督的模型犯的错误更少。

2. 所有模型都主要受到遮挡等复杂因素的影响。

3. 纹理是所有模型中最具挑战性的因素。

形状/纹理偏差

形状/纹理偏差会检验模型,是否依赖于纹理快捷方式,而不是高级形状提示。

这种偏向可以通过结合不同类别的形状和纹理的提示冲突图像来研究。

这种方法有助于了解与纹理相比,模型的决策在多大程度上是基于形状的。

研究人员对提示冲突数据集上的形状-纹理偏差进行了评估,发现CLIP模型的纹理偏差小于监督模型,而ViT模型的形状偏差高于ConvNets。

模型校准

校准可量化模型的预测置信度与其实际准确度是否一致。

这可以通过预期校准误差 (ECE) 等指标,以及可靠性图和置信度直方图等可视化工具进行评估。

研究人员在ImageNet-1K和ImageNet-R上对校准进行了评估,将预测分为15个等级。在实验中,观察到以下几点:

- CLIP模型置信度高,而监督模型则略显不足。

- 有监督的ConvNeXt比有监督的ViT校准得更好。

健壮性和可移植性

模型的健壮性和可移植性,是适应数据分布变化和新任务的关键。

研究人员使用不同的ImageNet变体评估了稳健性,发现虽然ViT和ConvNeXt模型具有类似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,监督模型在稳健性方面通常优于CLIP。

在可移植性方面,使用VTAB基准测试对19个数据集进行评估,监督ConvNeXt优于ViT,几乎与CLIP模型的性能相当。

rtx30系列什么时候有货

合成数据

像PUG-ImageNet这样的合成数据集,可以精确控制相机角度和纹理等因素,成为一种很有前途的研究途径,因此研究人员根据合成数据分析模型的性能。

PUG-ImageNet包含逼真的ImageNet图像,这些图像具有照明等因素的系统变化,性能以绝对最高准确率来衡量。

研究人员提供了PUG-ImageNet中不同因素的结果,发现ConvNeXt在几乎所有因素上都优于ViT。

这表明ConvNeXt在合成数据上优于ViT,而CLIP模型的差距较小,因为CLIP模型的准确率低于监督模型,这可能与原始ImageNet的准确率较低有关。

特征不变性

特征不变性是指模型能够产生一致的表征,不受输入转换的影响,从而保留语义,如缩放或移动。

这一特性使模型能够在不同但语义相似的输入中很好地泛化。

研究人员的方法包括,调整图像大小以实现比例不变性,移动裁剪以实现位置不变性,以及使用内插位置嵌入调整ViT模型的分辨率。

在有监督的训练中,ConvNeXt的表现优于ViT。

总体而言,模型对尺度/分辨率变换的鲁棒性高于对移动的鲁棒性。对于需要对缩放、位移和分辨率具有较高鲁棒性的应用,研究结果表明有监督的ConvNeXt可能是最佳选择。

transformer

transformer network

研究人员发现,每种模型都有自己独特的优势。

这表明模型的选择应该取决于目标用例,因为标准的性能指标可能会忽略关键任务特定的细微差别。

此外,许多现有的基准是从ImageNet派生出来的,这对评估有偏见。开发具有不同数据分布的新基准,对于在更具现实代表性的背景下评估模型至关重要。

ConvNet vs Transformer

- 在许多基准测试中,有监督的ConvNeXt比有监督的VIT具有更好的性能:它更好地校准,对数据转换不变,表现出更好的可转移性和健壮性。

- 在合成数据上,ConvNeXt的表现优于ViT。

- ViT有较高的形状偏向。

Supervised vs CLIP

- 尽管CLIP模型在可转移性方面更好,但监督的ConvNeXt在这项任务上表现出了竞争力。这展示了有监督的模型的潜力。

- 监督模型更擅长稳健性基准,这可能是因为这些模型是ImageNet的变体。

- CLIP模型具有较高的形状偏差,与其ImageNet精度相比,分类错误较少。

中国移动3g网络什么时候开始的


返回网站首页

本文评论
等等党措手不及!内存、SSD现货价已开始反弹:三星/美光疯狂减产奏效了
快科技4月14日讯,三星、美光、SK海力士三大存储巨头均旗帜鲜明地开始了减产,以应对库存高企导致的芯片价格节节败退。看起来,措施已然奏效。支付宝捐款了别人看得到吗专业调研...
日期:04-15
10月厂商销量榜:比亚迪 南北大众彻底追不上_比亚迪汽车产销量
10月份,乘联会发布了国内10月份汽车厂商销量销量情况。数据显示,10月份国内狭义乘用车市场零售销量达184.2万辆,同比增长7.5%,环比下降4.2%;1-10月份累计销量1671.8万辆,同比增长3...
日期:11-20
多元功能加持 三星Galaxy Watch6系列开启健康新生活
在通往健康生活的道路上,我们每个人既是同行者,却又因在目标、规划和不同因素的考量而各有所需。而为了更好满足用户不同的健康需求,以三星Galaxy Watch6 系列为代表的智能手表...
日期:08-23
华为云ModelArts2.0发布,让AI开发至简和自动化(华为人工智能开发框架)
  近日,德勤发布的《全球人工智能发展白皮书》预测,2025年世界人工智能市场规模将超过6万亿美元。得益于人工智能技术在最近十年的进展迅速,当前人工智能技术已步入全方位商...
日期:12-19
2020人工智能语义识别创新排行榜发布 虎博科技凭新一代智能搜索引擎入选
  近日,《互联网周刊》发布2020人工智能语义识别创新排行榜,虎博科技凭借基于NLP自然语言处理技术自主研发的新一代智能搜索引擎,与科大讯飞、阿里巴巴、华为等公司共同上榜...
日期:07-14
支付宝花呗当面花升级:低于150元到处都能付,500元月限额/积分兑换下线
  9月2日消息 支付宝花呗当面花功能迎来服务升级,9月1日起,符合当面花场景的实体店交易,单笔订单金额在150(含)元以内均可用花呗付款。原有每月500元当面花限额取消,积分兑换...
日期:02-01
在艺术空间遇见“家”!卡萨帝品牌体验展在重庆启幕_卡萨帝官网
  生活的底色是实实在在的烟火气,还是浪漫至美的艺术感?回归家居空间之中,我们既需要柴米油盐来填充生活,又需要艺术美学来滋养灵魂。而这些,在卡萨帝打造的家居艺术中,都能找得...
日期:06-20
ChatGPT月活15亿遥遥领先!50家企业厮杀6个月,白手起家占8成
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】生成式AI大PK!50家企业上台竞争,ChatGPT遥遥领先,月活高达15亿。生成式AI爆火近一年,是时...
日期:09-25
B站发布抵制造谣网暴倡导公告 将限制九大类谣言传播_b站谣言视频怎么办
3月14日 消息:B站发布抵制造谣网暴倡导公告称,自3月14日起, 将根据《中华人民共和国民法典》《网络信息内容生态治理规定》及其它相关法律法规规定,发起针对抵制谣言类内容、网...
日期:03-14
消息称特斯拉新款 Model 3 准备出口欧洲,上海超级工厂大量生产「特斯拉上海工厂出口吗」
IT之家 9 月 12 日消息,特斯拉日前推出了新款 Model 3(Model 3 焕新版)汽车,该车型由特斯拉上海超级工厂生产,已在 9 月 1 日正式开启预售,预计在四季度就将开始交付。苹果或推出i...
日期:09-12
中国联通新广告恶搞关羽 被指暗讽竞争对手
联通新广告暗讽竞争对手(新浪科技配图)   IT时报记者 王昕   话说关羽威风凛凛带军征战,就在他振臂一呼,准备冲锋陷阵之际,赤兔马竟变成了小木马,关公骑木马,这仗怎么打?以...
日期:07-25
报告称整合必应聊天之后,微软 Edge 浏览器用户数量正逼近 3 亿「新版微软edge浏览器」
IT之家 6 月 29 日消息,根据 Atlas 公布的计算数据,微软 Edge 浏览器在整合必应聊天(Bing Chat)之后,用户规模快速增长了 5000 万,目前正逼近 3 亿大关。IT之家注:Atlas 公布的计算...
日期:06-29
Canalys:2023年Q4全球智能手机市场增长8%,苹果领跑全球_2021年全球智能手机市场
Canalys发布的最新报告显示,2023 年第四季度,全球智能手机市场增长 8%,达到 3.2 亿部,结束了连续七个季度的下滑。值得注意的是,在新款iPhone推出后,苹果在第四季度以 24% 的市场...
日期:01-16
官方回应象棋冠军疑用“肛珠”作弊:禁赛一年、收回成绩和奖金
中国象棋协会于昨日晚间发布通报,针对2023年全国象棋民间棋王争霸赛冠军颜某某在比赛中的不当行为做出处罚决定。颜某某被实施禁赛一年,并被收回冠军头衔和奖金。零跑汽车发布...
日期:12-27
李彦宏:男人爱面子,永远都别想成功!
  人活在世上,有人活成了面子,有人活成了里子。前段时间热播的《都挺好》里,苏明哲极度爱面子,被网友们疯狂吐槽。其实生活中,也有不少“苏明哲”,放不下身段,有各种包袱。对于...
日期:12-14
英伟达、英特尔、AMD等芯片巨头集体萎靡,PC销售热潮已退_英伟达的竞争对手
  过去近两年,当疫情期间人们被隔离在家时,PC出货量出现爆发式增长。而现在,这样的增长终于消失。   当地时间8月8日,存储芯片公司美光警告称,PC需求表现疲软,市场充满挑战。...
日期:08-17
“分手费”涨了-微软收购动视暴雪宣布延期_动视暴雪股东
7月20日消息,目前,微软与动视暴雪宣布,为了确保解决CMA(英国竞争与市场管理局)的调查问题,双方同意签订新的合并协议。根据新的协议,微软需要在2023年10月18日前完成对动视暴雪的收...
日期:09-20
三分之二的专业人士认为AI将提高他们的技能价值
本文概要:1.64%受访专业人士预计未来5年内自己技能会更受重视,对AI持积极态度。2. 最大担心不是失业,而是AI准确性问题导致错误信息传播。3. 超六成人预计依赖非传统技能员工...
日期:08-23
名创优品:Blue Orca关于公司特许经营业务模式的沽空指控毫无依据
讯 7月28日晚间消息,名创优品今日晚间公布了针对Blue Orca沽空报告的初步调查结果。   在公告中,名创优品称,该报告中关于本公司特许经营业务模式的指控毫无依据;该报告指控公...
日期:07-31
王峰再度力推手机照片社交应用推图
  DoNews5月4日消息 据消息人士透露,原金山软件高级副总裁、蓝港在线创始人CEO、天使投资人王峰已于近日天使投资了国内一款基于手机照片分享的移动社交软件“推图(TuiTu)。...
日期:07-27