您的位置:首页 > 互联网

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

发布时间:2023-12-13 21:54:29  来源:互联网     背景:


新智元报道

编辑:LRS

【新智元导读】本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

CLIP是目前最流行的视觉基座模型,其应用场景包括但不限于:

  1. 与LLM大语言模型结合成为视觉多模态大模型;

  2. 作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model,实现image-to-3D;

  3. 用于指导NeRF的优化方向从而实现text-to-3D;

  4. 本身用于开放类别的识别和检测。

但CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域,不过自然的2D图片中往往包含不同的物体,part和thing,如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。

为此,上海交通大学、复旦大学、香港中文大学、澳门大学等机构的学者们提出了Alpha-CLIP模型,在原始CLIP模型的RGB三个通道的基础上额外引入了第四个alpha通道来决定需要关注的区域。


论文链接:https://arxiv.org/abs/2312.03818

项目主页:https://aleafy.github.io/alpha-clip

代码链接:https://github.com/SunzeY/AlphaCLIP

通过构造千万量级的RGBA四通道图片-文本对对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。


图1 Alpha-CLIP使用场景总览

图像分类

如图所示,对于ImagNet的一张图片,研究人员可以通过alpha-map控制CLIP去关注鱼或渔夫。



以ImageNet的Zero-Shot Classification作为评价指标,研究人员验证了在对全图进行识别时,Alpha-CLIP可以保持原本CLIP的分类准确率。


进一步地,在给出了需要关注区域的长方形box或者mask时,Alpha-CLIP可以进一步提升分类准确率。

与LLM大语言模型的结合


将主流的LLaVA-1.5中的CLIP基座模型替换为Alpha-CLIP,用户可以通过简单地用画笔标记处需要关注的区域,从而进行指定区域的对话交互。


在定量实验方面,研究人员通过LLaVA测试了MLLM的region caption能力。通过在RefCOCO和VG上分别进行finetune,取得了SOTA的region caption分数。


与Stable Diffusion的结合


Stable-Diffusion是目前主流的2D图片生成模型,其Image Variation版本可以实现图生图,其中图片的编码器也是CLIP模型。通过将该模型替换为Alpha-CLIP,可以实现更复杂图片中指定物体的生成(同时较好地保留背景)。


如上图所示,使用原始的CLIP会生成同时具有狮子和老虎特征的狮虎兽,而Alpha-CLIP能够很好地区分两个物体,从而指导Stable Diffusion模型生成更专一的图片。


与Point-E的结合


Point-E是Open-AI开源的一个支持Image-to-3D和text-to-3D的点云diffusion模型,通过将它的Image编码器从原始的CLIP替换为Alpha-CLIP。


可以支持用户对任意区域进行关注,从而恢复丢失的表针和盾牌的十字架。


Attention Map可视化

本工作对Alpha-CLIP的注意力进行可视化,以检查Alpha-CLIP是否更加关注用户定义alpha-map。

通过检查视觉编码器中最后一个Transformer块中[CLS] token的注意力图。可视化采用了具有16个注意头的ViT-L/14模型。


为了进行公正比较,使用第5和第16个注意头的注意力图进行可视化,因为我们发现在这16个头中,这两个特征图最为明显。

小米5跑分安兔兔多少

结果如下图所示。这种可视化验证了Alpha-CLIP更加关注要聚焦的区域,更重要的是,它在保留原始CLIP特征位置的二维位置信息时没有造成损害。

结论

本文介绍的这项工作提出了Alpha-CLIP模型,该模型引入了一个额外的alpha通道,用于指定感兴趣的区域。

通过对数百万个RGBA区域-文本对进行训练,Alpha-CLIP不仅表现出卓越的区域关注能力,而且确保其输出空间与原始的CLIP模型保持一致。这种一致性使得Alpha-CLIP在CLIP的各种下游应用中能够轻松替代,无缝衔接。

研究人员证明了当提供特定关注的区域时,Alpha-CLIP展现出了更强大的Zero-Shot识别能力,并验证了它在许多下游任务中的有用性。CLIP的应用远远超出了本文的范围。研究人员希望在前景区域或mask较容易获得时,Alpha-CLIP将能够在更多场景中得到应用。

虽然Alpha-CLIP在需要关注区域的各种场景中表现出有效的性能,但目前的结构和训练过程限制了其专注于多个对象或建模不同对象之间关系的能力。

此外,当前的训练方法限制了alpha通道在中间值之外的泛化(只能接受0,1两个值),因此用户无法指定注意力的幅度。

另一个限制同时存在于Alpha-CLIP和原始CLIP中,即纯Transformer结构的编码器分辨率较低,这阻碍了Alpha-CLIP识别小物体并进行关注。

研究人员计划在未来的工作中解决这些限制并扩展CLIP的输入分辨率,相信这些未来的方向是增强Alpha-CLIP能力并在各种下游任务中扩展其实用性的途径。

参考资料:

https://arxiv.org/abs/2312.03818



返回网站首页

本文评论
Mate50时隔两年归来,华为的竞争对手已不是苹果?_华为mate50值得期待吗
Tech星球(微信ID:tech618)文|杨晓鹤封面来源|图虫创意9月6日,时隔两年归来,华为再次发布了Mate系列手机。虽然发布会依旧有“吊打苹果”传统,不过“余大嘴”余承东一句英文简单带...
日期:09-09
iQOO12系列火爆热销中,年度全能旗舰3999元起_iqoo 全网通
2023年底首批搭载骁龙8Gen3的全能旗舰iQOO12系列传奇版及赛道版已于昨日上午10:00正式全渠道开售。开售仅3分钟,销售额便超上一代旗舰iQOO11系列首销全天销量。iQOO12系列全...
日期:11-16
儿童智能手表藏风险 多管齐下护“腕上安全”_儿童智能安全手表怎么用
  能拍照,能定位,还能打电话……近年来,儿童智能手表获得了越来越多未成年学生的青睐。暑假期间,各大品牌的儿童智能手表更是再次进入了销售高峰。  然而,儿童智能手表这个快...
日期:09-09
理想汽车公布2023年第三季度财报 营收346.8亿元 累计交付量达50万辆_网易科技
【网易科技11月9日报道】今日,理想汽车公布2023年第三季度财报,其中,第三季度交付105,108辆,同比增长296.3%。季度营收346.8亿元,同比增长271.2%。同期经营利润和净利润分别为23....
日期:11-09
蚂蚁集团提交科创板上市注册 前三季度营收或达1175亿元_蚂蚁集团计划在科创板上市时间
9月23日 消息:上交所公告显示,科创板拟上市公司蚂蚁集团已提交注册,蚂蚁集团初步拟定的科创板募资额为 480 亿元人民币。从申请获受理到问询到过会再到提交注册,蚂蚁集团仅用了...
日期:08-07
三星i8000u软件下载「三星i9003软件下载」
三星i8000u是一款很棒的手机,但是想要更好地使用它,就必须下载一些适合自己的软件。下面本文将为您介绍三星i8000u常用的软件及下载方式。1. QQQQ是一款非常优秀的即时通讯软...
日期:05-31
华为a199配置「华为a199怎么样」
华为a199是一款在2013年上市的安卓智能手机,受到了广大用户的青睐。这款手机有哪些亮点呢?接下来,我们将从外观、配置、价格等多个方面进行综合评价。推特马斯特外观华为a199采...
日期:05-30
福建人对刘涛的妈祖滤镜 网友:我奶奶不允许我说刘涛一句坏话
近日,福建人对刘涛的妈祖滤镜成为一种独特的地域文化现象。妈祖在福建是一种民间信仰,被当地人民视为海上保护神。而刘涛因为曾经演过电视剧《妈祖》,而深受福建老一辈人的喜爱...
日期:08-04
混动哈弗H6「车型销量突破 380 万,长城汽车哈弗 H6 超级混动 DHT 今日将亮相」
IT之家 8 月 22 日消息,今日,哈弗品牌新能源战略发布会暨第三代哈弗 H6 超级混动 DHT 双子星耀世登场活动将在北京举行。长城汽车数据显示,哈弗 H6 是首个突破 380 万的中国品...
日期:09-20
小米13概念机「消息称小米 13 Ultra 旗舰手机将全球销售:搭载徕卡影像」
IT之家 3 月 13 日消息,2021 年小米推出了小米 11 Ultra 开始受到关注,该机搭载超大影像模组。后面小米推出了小米 12S Ultra 时,搭载了徕卡影像,受到了更多好评,但小米没有在全...
日期:03-13
3,万亿美元市值触手可及 苹果公司股价创新高_苹果公司股价走势
 6 月 28 日消息,苹果公司的股价近日逆势上扬,创下了新的收盘价纪录。今天,苹果公司的股价在开盘时为 185.89 美元,最高达到 188.39 美元,最终以 188.06 美元收盘,这意味着苹果公...
日期:09-22
小米市占率重回国产手机品牌第一:4000元以上与苹果华为成高端三强
快科技12月11日消息,快科技12月11日消息,BCI数据显示,2023年11月(W44-W48),中国市场智能手机新机激活量2871万台,同比增长12.7%。 苹果以21.1%的市场份额位列第一。小米占比18.3...
日期:12-11
消息称苹果计划推出microLED屏iPhone 还有iPad和Apple Watch_苹果microled屏幕
5月11日消息,据外媒报道,在iPhone全面转向OLED屏之后,外界也期待苹果将这一显示效果更好的屏幕,应用到尺寸更大iPad和MacBook上,前者预计明年就将开始采用,后者则会在2026年开始。...
日期:05-11
中兴 数据中心「中兴发布多款行业数据终端,助力绿色、智能、安全数字时代」
2023 年 4 月 12 日,深圳,中兴通讯在 2023 年云网生态峰会暨春季新品发布会上发布了多款行业数据终端产品。作为中兴通讯推动移动互联终端绿色、智能、安全产品理念的践行,此...
日期:04-13
特斯拉赛博卡车「为中国市场量身打造-特斯拉宣布推出赛博充Cybervault」
特斯拉宣布推出新品赛博充 CyberVault 充电设备,可为特斯拉全系车型提供快速充电服务。CyberVault 采用单相 220V 电源,兼容各款特斯拉车型,最大充电功率可达 32A/7KW。此外,该...
日期:10-04
元宇宙产业委员会将举办2023年WME世界元宇宙博览会_元宇宙工作委员会
由中国移动通信联合会与法国智奥会展集团共同主办,中国移动通信联合会元宇宙产业委员会与智奥会展(上海)有限公司联合承办的2023年WME世界元宇宙博览会将于2023年4月23日-25日...
日期:08-01
马斯克称还不知道推特CEO是谁「马斯克有推特吗」
10 月 31 日讯:特斯拉CEO马斯克表示,目前还没确认推特CEO是谁。美国猎鹰号火箭魏明 优酷比亚迪中型mpv最新消息...
日期:11-10
2023小米雷军年度演讲定档8月14日 主题为“成长”「雷军小米演讲视频精彩片段」
8月9日 消息:8月9日上午,雷军,小米创始人兼CEO,通过官方微博发布了一条消息,宣布他将于8月14日晚7点举办今年的雷军年度演讲,主题为“成长”。这将是他第四次举办年度演讲,与大家...
日期:08-09
大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题
总结:随着大模型技术的发展,移动应用的人机交互方式正发生革命性变化。高通公司在 CVPR 2023 上展示了搭载 15 亿参数的 ControlNet 模型在手机端的运行,仅需不到 12 秒就能完...
日期:07-14
GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】让模型用代码自我验证解决方案,结合多数投票集成机制,推理准确率可以提升近30%!虽然大型...
日期:09-01