您的位置:首页 > 互联网

微软亚研提出TinyMIM,用知识蒸馏改进小型ViT「微软亚太研发集团亚洲研究院」

发布时间:2023-09-02 08:49:12  来源:互联网     背景:

机器之心专栏

微软亚洲研究院

微软亚太研究集团

本文提出了 TinyMIM,它是第一个成功地使小模型受益于 MIM 预训练的模型。

一、研究动机

掩码建模(MIM, MAE)被证明是非常有效的自监督训练方法。然而,如图 1 所示,MIM 对于更大的模型效果相对更好。当模型很小的时候(比如 ViT-T 5M 参数,这样的模型对于现实世界非常重要),MIM 甚至可能一定程度上降低模型的效果。比如用 MAE 训练的 ViT-L 比普通监督训练的模型在 ImageNet 上的分类效果提升 3.3%,但是用 MAE 训练的 ViT-T 比普通监督训练的模型在 ImageNet 上的分类效果降低了 0.6%。

在这篇工作中我们提出了 TinyMIM,其在保持 ViT 结构不变并且不修改结构引入其他归纳偏置(inductive bias)的基础上、用蒸馏的方法迁移大模型上的知识到小模型。



  • 论文地址:https://arxiv.org/pdf/2301.01296.pdf
  • 代码地址:https://github.com/OliverRensu/TinyMIM

我们系统性的研究了蒸馏目标、数据增强、正则化、辅助损失函数等对于蒸馏的影响。在严格的只用 ImageNet-1K 作为训练数据的情况下(包括 Teacher model 也只用 ImageNet-1K 训练)和 ViT-B 作为模型,我们的方法实现了当前最好的性能。如图所示:



把我们的方法(TinyMIM)和基于掩码重建的方法 MAE,以及监督式学习的方法从头开始训练的 DeiT 作比较。MAE 在模型比较大的时候有显著的性能提升,但是在模型比较小的时候提升幅度有限甚至会伤害模型的最终效果。我们的方法 TinyMIM 在不同模型的大小上都有大幅提升。

我们的贡献如下:

1. 蒸馏的目标(Distillation targets):1)蒸馏 token 之间的关系比单独蒸馏 class token 或者特征图(feature map)更有效;2)用中间层作为蒸馏的目标更有效。

2. 数据增强和模型正则化(Data and network regularization):1)用带掩码的图片效果更差;2)学生模型需要一点 drop path,但是 teacher 模型不需要。

3. 辅助损失函数(auxiliary losses):MIM 作为辅助损失函数没有意义。

4. 宏观蒸馏策略(Macro distillation strategy):我们发现序列化的蒸馏(ViT-B -> ViT-S -> ViT-T)效果最好。

二、方法



我们系统性的调研了蒸馏的目标,输入的图片,蒸馏目标模块。

2.1 影响蒸馏效果的因素

1)特征:

折叠屏手机fold2

a. 中间 block 特征和输出特征



当 i=L 时,指的是 Transformer 输出层的特征。当 i< L 时,指的是 Transformer 中间层的特征。

b. 注意力(Attention)特征和前馈层(FFN)层特征



Transformer 每一个 block 有 Attention 层和 FFN 层,蒸馏不同的层会带来不同的影响。

c.QKV 特征



在 Attention 层内会有 Q,K,V 特征,这些特征用于计算注意力机制,我们也调研了直接蒸馏这些特征。

2)关系



Q,K,V 用于计算注意力图,这些特征之间的关系也可以作为知识蒸馏的目标。

3)输入:是否带掩码

华为六月份发布会

传统的知识蒸馏是直接输入完整的图片。我们的方法为了探索蒸馏掩码建模模型,所以我们也探索了带掩码的图片是否适合作为知识蒸馏时候的输入。

2.2 知识蒸馏方法对比

1)Class Token 蒸馏:

最简单的方法就是类似 DeiT 直接蒸馏 MAE 预训练模型的 class token:



其中



微软亚太研发集团亚洲研究院

指学生模型的 class token,而



指老师模型的 class token。

2)特征蒸馏:我们直接参考了 feature distillation [1] 作为对比





3)关系蒸馏:我们提出了也是本文默认的蒸馏策略



三、实验

3.1 主要实验结果

我们的方法在 ImageNet-1K 上预训练,而且教师模型也是在 ImageNet-1K 预训练。然后我们将我们预训练的模型在下游任务(分类、语义分割)上进行了微调。模型表现如图:



我们的方法显著超过之前基于 MAE 的方法,尤其是小模型。具体来讲,对于超小的模型 ViT-T,我们的方法实现了 75.8% 的分类准确性,相比 MAE 基线模型实现了 4.2 的提升。对于小模型 ViT-S,我们实现了 83.0% 的分类准确性,比之前最好的方法提升了 1.4。对于 Base 尺寸的模型,我们的方法分别超过 MAE 基线模型和以前最好的模型 CAE 4.1 和 2.0。

同时我们也测试了模型的鲁棒性,如图所示:



TinyMIM-B 对比 MAE-B,在 ImageNet-A 和 ImageNet-R 分别提升了 + 6.4 和 +4.6。

3.2 消融实验

1)蒸馏不同关系



同时蒸馏 QK,VV 关系而且在计算关系的时候有 Softmax 实现了最好的效果。

2)不同的蒸馏策略



TinyMIM 这种蒸馏关系的方法实现了比 MAE 基线模型,class token 蒸馏,特征图蒸馏都更好的效果,在各种尺寸的模型上都是如此。

3)蒸馏中间层



我们发现蒸馏第十八层实现了最好的效果。

四、结论

在本文中,我们提出了 TinyMIM,它是第一个成功地使小模型受益于掩码重建建模(MIM)预训练的模型。我们没有采用掩码重建作为任务,而是通过以知识蒸馏的方式训练小模型模拟大模型的关系来预训练小模型。TinyMIM 的成功可以归功于对可能影响 TinyMIM 预训练的各种因素的全面研究,包括蒸馏目标、蒸馏输入和中间层。通过大量的实验,我们得出结论,关系蒸馏优于特征蒸馏和类标记蒸馏等。凭借其简单性和强大的性能,我们希望我们的方法能够为未来的研究提供坚实的基础。

[1] Wei, Y., Hu, H., Xie, Z., Zhang, Z., Cao, Y., Bao, J., ... & Guo, B. (2022). Contrastive learning rivals masked image modeling in fine-tuning via feature distillation. arXiv preprint arXiv:2205.14141.


返回网站首页

本文评论
比亚迪“云辇”发布 中国车企首次自主掌握智能车身控制系统_比亚迪云服务智能遥控驾驶
凤凰网科技讯 4月10日消息,比亚迪发布全球首个新能源专属智能车身控制系统——云辇。云辇产品矩阵包含云辇-C、云辇-A、云辇-P等产品,云辇-P将首搭仰望U8;云辇-A将首搭腾势N7;云...
日期:04-11
看见数字龙江:黑土地里“绽放”数字化转型之花_数字龙江发展规划
通信世界网消息(CWW)金秋八月,天蓝如湛。一场秋雨过后,龙江大地沐浴在暖阳下,这座老工业基地焕发着蓬勃生机。8月10—11日,通信世界全媒体一行跟随“看见数字龙江‘人工智能与先进...
日期:08-14
疯狂动物城将拍续集 迪士尼已注册多枚疯狂动物城商标「迪士尼新开疯狂动物城」
2月9日 消息:近日,迪士尼CEO鲍勃·艾格最新宣布《疯狂动物城》将拍续集。这部动画电影于2016年推出,大获成功,拿下10.255亿美元全球票房,目前还未出正式的后续电影,去年推出了衍...
日期:02-09
马斯克已创立新人工智能公司X.AI 总部不在加州也不在得州_埃隆·马斯克人工智能
4月15日消息,据外媒报道,此前曾联名呼吁暂停训练比GPT-4更先进的大型语言模型的马斯克,在人工智能领域开始布局的迹象越来越明显,在有报道称他已购入近万个GPU,为未来的生成式人...
日期:04-15
数智正加速催化数字化转型升级_数智化科技
数智正加速催化数字化转型升级 推特的广告收入占比约为90%美团2020季报r7 5800x核显相当于什么显卡小米手机电池图标的电量百分比...
日期:05-30
为苹果代工的业务“上新”,越南制造又赢了?「苹果手机越南代工厂」
据日经亚洲(Nikkei Asia)网站8月17日报道,有消息称,苹果公司正就首次在越南生产Apple Watch和MacBook进行谈判。报道称,身为科技巨头,苹果如今正寻求在中国以外的区域生产其产品,而...
日期:09-03
武汉嫂子,菜来了……本来生活@你
  前两天,一位#武汉嫂子#教科书式怒怼的视频火了。   情况大概就是,她怒怼不作为的某工作人员,而且点名直指某超市对她们小区推出了AB套餐。整段视频都是嫂子60s+的语音...
日期:11-01
微软:Windows 7恶意软件感染率增长30%
微软今天公布了最新一期的安全报告,2010年下半年, Windows 7 的恶意软件感染率增长了30%,而Windows XP的感染率则降低了20%。在2010年下半年,32位Windows 7计算机的感染率...
日期:07-27
世界首次,我国科学家实现原子级石墨烯可控折叠_中科院:石墨烯技术迎来重大突破,打破国际壁垒实现突破
  据央视新闻报道,经过多年研究攻关,我国科学家在世界上首次实现了原子级精准控制的石墨烯折叠,这是目前世界上最小尺寸的石墨烯折叠,对构筑量子材料和量子器件等具有重要意...
日期:11-21
那些你不知道的AI产品,正在海外闷声赚大钱「国内ai平台」
声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:月山橘,授权转载发布。据说,国内的AI创业者已经在海外市场杀疯了。最近几个月以来,不断有AI产品出海赚得盆满钵满的消...
日期:08-21
凤鸣平台app「声网发布“凤鸣AI引擎”,含AI降噪、回声消除等功能」
3月23日消息,声网正式发布囊括AI降噪、AI回声消除、空间音频、最佳音效等功能在内的“凤鸣AI引擎”。这款新一代音频技术智能引擎,可应用于语聊社交、在线K歌、线上会议、游戏...
日期:03-24
华为AI成果登Nature子刊;Meta将收取Llama2费用丨AIGC大事日报
07/27全球AIGC产业要闻1、Stability AI推出开源文生图模型SDXL 1.02、Meta将向微软亚马逊谷歌收取转售Llama2的费用3、Nature子刊发表华为AI+科学计算新成果4、AWS EC2 P5实...
日期:07-28
小米第二季度智能手机出货量3910万台,同比下滑26.1%_2018小米手机销量
讯 8月19日下午消息,小米集团(HK: 1810)今日发布截至2022年6月30日的第二季度财报。财报显示,小米第二季度营收701.7亿元,预估698.6亿元;净利润13.9亿元,预估15亿元;调整后净利润20....
日期:08-21
youtube如何开启画中画 ios_iOS端YouTube 取消画中画功能
  据 AppleInsider 报道,在试用该功能九个月后,YouTube 已禁用其 iOS 版 App 的实验性画中画模式。   YouTube 在 2021 年 8 月启用了 iOS 上的画中画功能,作为该 App 的...
日期:07-18
芒果超媒主要业务「芒果超媒:芒果TV已与小鹏汽车等车企展开会员领域相关合作」
  证券时报e公司讯,芒果超媒(300413)在互动平台表示,芒果TV已与小鹏汽车等车企展开会员领域相关合作,共同探索车载屏视频娱乐服务。广泛携手智能汽车平台是芒果TV会员权益服...
日期:10-15
mcn流量扶持「吃补贴的MCN靠种草“逆袭”,明年冲击2亿流水」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。从秀场、短视频补贴再到种草,一家直播公会、MCN机构如何保持进化的能力?2015年,陶志斌手握10万元,一头扎...
日期:11-17
航空返回器“梁溪号”飞船将于 6 月首飞
IT之家 5 月 1 日消息,据无锡博报今日报道;“梁溪号”飞船将于 6 月首飞,该飞船由紫薇科技太空科技公司研发。“梁溪号”飞船是一款航空返回器,主打小型天地往返货物运输,可持续...
日期:05-01
苹果 iPhone 15 将提高容量和规格:Pro 机型可能为 8GB RAM_ios15多少g
2月22日消息:根据研究机构TrendForce的一份新报告,下一代iPhone15系列将在内存方面有所改进。该报告称,苹果将提高 iPhone15型号的RAM的容量和规格。根据这一措辞,整个iPhone15...
日期:02-22
欧盟3350多亿就想搞定2nm工艺?误会了 没那么高水平
半导体芯片的重要性无需多言,经济水平靠前的国家和地区都在加强自己的半导体产业链,欧盟也不例外,日前通过了450亿欧元,约合3354亿元人民币的《欧洲芯片法案》,要打造自己的芯片...
日期:11-27
有道词典桌面版改名“有道翻译” 新增AIBox等功能「有道词典怎么改名字」
4月20日 消息:今日,网易有道官方宣布“有道词典桌面版”正式改名为“有道翻译”。“有道翻译”支持109种语言互译,覆盖10余种翻译场景和文档格式,包括文本、文档、图片、音频、...
日期:04-20