您的位置:首页 > 互联网

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症

发布时间:2024-08-13 00:38:34  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。

绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。

然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。

针对这一挑战,华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey,使用了可插拔的多尺度自适应策略(MSAC)的轻量化多模态大模型。

Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。

每日优鲜余额怎么处理

论文地址:https://arxiv.org/pdf/2408.02034

项目地址:https://github.com/Yuliang-Liu/Monkey

为了减轻MSAC带来的计算开销,我们提出了一种有效压缩图像令牌的尺度压缩机制(SCM)。

Mini-Monkey不仅在文档智能的多个任务上取得了领先的性能,在通用多模态模型理解任务上也取得了一致的性能的提升,取得了2B的SOTA性能。

在OCRBench上,Mini-Monkey获得了802分,优于GLM-4v-9B等更大参数量的模型。

图3方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层

研究背景

多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。

一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。

图1切分在通用物体上引起的锯齿效应:(a)输入图像;(b)切分扩大分辨率策略;(c)有重叠的切分扩大分辨率策略;(d)多尺度适应性切分策略

研究者开始通过扩大图像的输入分辨率来解决这个问题。切分策略是最常用的方法之一。例如,Monkey,LLaVA1.6,InternVL1.5和LLama3-V等。

尽管多模态大型语言模型取得了重大进展,但由于切分策略,在详细场景理解方面仍然存在挑战。

对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。

这种策略将引入两种类型的语义不连贯:

1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;

2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词Classrooms可能被分为Class和rooms,这会对分割后的单词造成语义损害。

为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。

然而,作者发现重叠切分策略引入了某些幻觉,导致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一个轻量级的多模态大型语言模型,旨在减轻切分策略引起的锯齿效应。方法框图如图2所示。

图2裁切在文字图像上引起的锯齿效应。

与直接切分输入图像的现有方法不同,Mini-Monkey采用了一种即插即用的方法称为多尺度自适应切分策略(MSAC)。

MSAC可以在不同尺度的特征之间进行有效的互补,如图1(d)所示。

多尺度自适应切分策略(MSAC)

MSAC先对这些网格进行分层操作,根据它们的纵横比将它们分成三组。作者将为每个图层选择一个宽高比。不同的分层为模型提供不同的信息。

详细层负责提供详细信息。它既限制了最大图像分辨率和最小图像分辨率,使图像尽可能大,使图像中的物体更清晰。由于使用了切分策略来剪裁图像,该层生成的图像可能存在语义不一致。

因此,作者利用自适应层与细节层协同,使模型能够从各种尺度中选择未分割的对象。自适应层将根据细节层自适应生成纵横比,确保细节层上的切分线与自适应层上的切分线不重叠,进而避免了同一个物体在不同层上被切分两次。这个过程确保了细节层和自适应层为模型提供了不同的语义信息和视觉特征。

尺度压缩机制

MSAC可能会引入一些额外的计算开销。因此,作者提出了一种尺度压缩机制(SCM),用于有计算开销限制的情况。SCM是一个不用训练并且无参数的机制,以减少计算开销。

作者选择自适应层的视觉Tokens、全局层的视觉Tokens和文本Tokens来关注细节层的视觉标记,进而生成注意力图,然后将注意力图Top K的视觉特征提取出来。

一个训练好的LLM可以根据输入问题有效地选择必要的视觉特征。因此,SCM利用LLM的第一层和第二层来选择视觉Tokens,而不生成任何额外的参数。

Mini-Monkey最强2B多模态大模型

作者在通用多模态理解和文档理解上测试了他们的方法,实验结果表明,Mini-Monkey在2B参数量的情况下,同时在通用多模态理解和文档理解上取得了最好的性能。

表1通用多模态理解上的结果

表2文档理解上的结果

作者将提出的MSAC和现有的方法对比,第一行是动态切分的方法,第二行是固定分辨率切分的方法,第三行是有重叠的切分,第四行是多尺度策略S2。

表3与不同的切分策略进行对比

MSAC可以应用到不同的多模态架构上,稳定提点

同时作者也将MSAC应用到其他的方法进行对比,可以看到同时在通用多模态理解和文档理解任务上都有一致的提升。

表4将MSAC应用到不同的框架上

有效缓解由切分增大分辨率导致的后遗症

同时作者也提供了一些定性的分析,如图4所示。作者对切分到的位置进行提问,比如被切分到的classrooms和school。

可以看到,Mini-Monkey通过MSAC可以有效的缓解由切分增大分辨率导致的后遗症。

图4定性结果:(a)输入图像和Ground Truth;(b)采用重叠切分策略的结果,OSC表示重叠切分策略;(c)internv2-2b和internv2-26b的结果;(d)Mini-Monkey的结果

可视化对比

Mini-Monkey能准确的提取模糊的古籍里面的文字内容,而MiniCPM-V2.6和InternVL2-2B都漏掉了比较多的文字,GPT4-O拒绝回答:

(a)输入图片

(b)Mimi-Monkey:准确识别出所有文字

(c)MiniCPM-V2.6:漏掉了很多文字。

(d)InternVL2-2B:漏掉了一整句比较模糊的文字

(e)GPT-4o:拒绝回答

总结

使用切分扩大分辨率的方法经常分割对象和连接区域,这限制了对小的或不规则形状的对象和文本的识别,这个问题在轻量级的MLLM中尤为明显。

在这项研究中,作者提出了一个取得SOTA性能的2B多模态大模型Mini-Monkey,旨在解决现有切分策略的局限性,以提高MLLM处理高分辨率图像的能力。

Mini-Monkey采用了一种多尺度自适应切分策略(MSAC),生成多尺度表示,允许模型在不同尺度上选择未分割的对象,进而缓解了这个问题。

同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的后遗症提供了一种简单有效的解决方案。


返回网站首页

本文评论
阿拉伯语版ChatGPT“Jais  Chat”问世 性能堪比英语商业模型_“阿拉伯语”
文章概要:1. Jais是面向阿拉伯语的开源大模型,参数量达130亿2. 在阿拉伯语任务上,Jais性能可匹敌ChatGPT三星s10大容量电池传祺影豹对比本田思域3. Jais在Cerebras专用芯片上...
日期:09-04
阿里集团换帅 蔡崇信9月接任张勇出任主席「阿里创始人蔡崇信」
张勇在6月20日发出全员信,宣布阿里正在进行顺利的自我变革,新的1+6+N业务集群已经基本形成,各个业务集团的董事会也已经开始运作,同时多个业务也已经启动了上市和融资的计划,控股...
日期:06-20
闲鱼 大学生「闲鱼回应多地大学生在平台挂学校;不建议称出售」
最近,闲鱼平台上出现了一个令人惊讶的现象:许多大学生在平台上挂出自己的学校,然后标价出售。这些大学生的“转卖”理由千奇百怪,有人因不想上课而卖学校,有人觉得宿舍太远,有人...
日期:11-02
进入传统备货旺季 液晶电视面板价格持续看涨「液晶电视面板价格走势」
  数据显示,在经历4月的收入小幅环比回调后,液晶面板厂营收再一次进入增长通道。苹果推出m2 ultra芯片  近日,面板头部企业群创光电发布的6月营收报告显示,当月实现营业收入...
日期:07-14
首个数据要素国际标准立项,引领智慧城市数据开发新纪元_国家数据标准体系
通信世界网消息(CWW)近日,在瑞士日内瓦召开的国际电信联盟电信标准委员会第20号研究组(ITU-T SG20)全体会议上,烽火参与提交的《智慧城市数据要素质量评估框架》ITU标准提案成功...
日期:07-25
00后川剧变脸变出二哈表情包 网友:传统与新时代完美结合_川剧变脸的表情包
近日,在浙江的一场表演中,一位00后川剧变脸艺术家在展示川剧特技时,给观众带来了一个意想不到的惊喜。在表演过程中,他巧妙地融入了“二哈”等现代表情包元素,这一创新举动立即引...
日期:02-07
下班后微信办公算加班吗?法院判了缓刑「下班后微信办公算加班吗?法院判了」
互联网的飞速发展,让很多人的工作和生活边界越发的模糊。比如用人单位领导要求员工就算下班了也要时刻关注微信,若群里看到有人问问题就回复下客户所需信息。相信这种事在现实...
日期:08-11
腾讯也要帮车企造好车 与蔚来达成合作:地图、自驾等是重点「蔚来汽车运营」
互联网企业下场参与智能汽车已经不是新闻了,今晚腾讯与蔚来也达成了战略合作,双方协议,将在智能驾驶地图、自动驾驶云、数字生态社区等领域展开深度合作。据介绍,未来双方将就蔚...
日期:12-01
上百台手机首测北斗通信真壮观!华为:我们甩了对手4万公里_华为用的北斗
快科技11月6日消息,今天华为心声社区”刊载了终端卫星通信团队捅破天”的故事。文中讲述了华为终端卫星通信团队让北斗卫星消息落实到手机的往事,其中包括北斗三号系统开通以...
日期:11-07
三星3268电视广告后蓝屏怎么办「三星326」
是一款智能手机产品,由韩国三星电子公司推出。该手机采用了4.3英寸TFT触摸屏,分辨率为480 x 800像素,支持多点触控。同时,该手机还搭载了1.2GHz四核CPU和1GB RAM,配备了8GB的存储...
日期:05-31
荣耀平板2018「首款搭载MagicOS 7.2!荣耀平板MagicPad 13正式发布」
通信世界网消息(CWW)7月12日,荣耀Magic V2暨全场景新品发布会在北京水立方举行,荣耀Magic V2、荣耀平板MagicPad 13、荣耀手表4、荣耀智慧屏5等多款新品共同亮相。作为首款Magic...
日期:07-13
小米14配置「小米14系列最快下周预热!或首发自研系统 专为女生设计机身」
快科技10月15日消息,10月过半,距离小米14系列发布也没几天了,根据多方爆料,小米14系列发布会可能会在10月27日举行。今日,数码博主智慧皮卡丘”透露,小米14系列下周开始预热,这次发...
日期:10-16
消息称iPhone 17系列屏幕有重大升级:“胶囊屏”时代终结_什么是胶囊屏幕
快科技10月16日消息,业内人士Ross Yong透露,iPhone 17系列屏幕有重大升级。据爆料,iPhone 17 Pro和iPhone 17 Pro Max将会首发屏下Face ID技术,届时iPhone 17 Pro系列将会采用挖...
日期:10-16
WPS崩了上热搜 官方:正在紧急修复「wps崩溃如何恢复」
6月30日 消息:今日,WPS出现服务故障,导致用户使用受到影响,WPS官方已确认消息并道歉。安卓 苹果 安全WPS表示目前正在紧急排查修复中。ios13.5降级绕过验证通道小米8至尊纪念版...
日期:06-30
Viadeo总裁搬家到华 中国市场成重心
  9月7日消息,昨日,全球非英语国家最大的职业社交网站Viadeo总裁Dan Serfaty在其子公司天际网召开了全体会议。这也是自他9月1日全家搬到北京以后的首次公开亮相。   Dan...
日期:07-22
中兴通讯:云网筑基,数智赋能,助力城轨数字化发展_中兴通讯数字化转型
通信世界网消息(CWW)近日,RT FORUM 2023第七届中国智慧轨道交通大会在重庆隆重召开,2000余名来自城市轨道交通行业科研院校、40座城市业主单位、20家设计院以及近200家集成商&设...
日期:06-25
“中国医师节”向人民健康守护者致敬(致敬首个中国医师节)
  有这样一个群体,他们是“夜空中最美的星”。在疫情防控一线,他们白衣执甲,逆行而上;临床手术台上,他们承载着患者生的希望;技术实验室里,他们数十年如一日推动医疗科技发展;...
日期:07-17
为什么B站还在强调DAU破亿_b站为什么这么大
声明:本文来自于微信公众号 奇偶派(ID:jioupai),作者:关注互联网的,授权转载发布。伴随着流量大盘趋于稳定,互联网平台进入存量博弈阶段,在很多人眼里,高增长和高投入成为了一个强...
日期:12-01
科技伦理:没有约束的科技是危险的「被忽视的B面:科技伦理治理靠什么指引未来?」
近些年,以人工智能技术为代表的新兴科学技术的深入应用,显著提升了社会生产效率,让人类的生活变得更加便捷舒适,但与此同时,科学技术不够成熟、安全隐私保护不完善、社会伦理道德...
日期:09-28
元气森林发布新品“可乐味气泡水”_元气森林与可乐
4月26日消息,今日,元气森林发布新品“元气森林可乐味气泡水”。新产品相比去年发布的可乐味气泡水1.0版本,围绕口味、爽感、气感等方面进行了全面升级。元气森林创始人唐彬森表...
日期:04-27