您的位置:首页 > 互联网

2B多模态新SOTA,华科、华南理工发布Mini-Monkey,专治“切分增大分辨率”后遗症

发布时间:2024-08-13 13:06:33  来源:互联网     背景:

声明:本文来自于微信公众号 本文来自微信公众号“新智元”,作者:新智元,授权转载发布。

海南iphone13免税

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。

最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。

绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。

然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。

针对这一挑战,华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey,使用了可插拔的多尺度自适应策略(MSAC)的轻量化多模态大模型。

Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。

论文地址:https://arxiv.org/pdf/2408.02034

项目地址:https://github.com/Yuliang-Liu/Monkey

为了减轻MSAC带来的计算开销,我们提出了一种有效压缩图像令牌的尺度压缩机制(SCM)。

Mini-Monkey不仅在文档智能的多个任务上取得了领先的性能,在通用多模态模型理解任务上也取得了一致的性能的提升,取得了2B的SOTA性能。

在OCRBench上,Mini-Monkey获得了802分,优于GLM-4v-9B等更大参数量的模型。

图3方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层

研究背景

多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。

一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。

图1切分在通用物体上引起的锯齿效应:(a)输入图像;(b)切分扩大分辨率策略;(c)有重叠的切分扩大分辨率策略;(d)多尺度适应性切分策略

研究者开始通过扩大图像的输入分辨率来解决这个问题。切分策略是最常用的方法之一。例如,Monkey,LLaVA1.6,InternVL1.5和LLama3-V等。

尽管多模态大型语言模型取得了重大进展,但由于切分策略,在详细场景理解方面仍然存在挑战。

对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。

这种策略将引入两种类型的语义不连贯:

1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;

2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词Classrooms可能被分为Class和rooms,这会对分割后的单词造成语义损害。

为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。

然而,作者发现重叠切分策略引入了某些幻觉,导致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一个轻量级的多模态大型语言模型,旨在减轻切分策略引起的锯齿效应。方法框图如图2所示。

图2裁切在文字图像上引起的锯齿效应。

与直接切分输入图像的现有方法不同,Mini-Monkey采用了一种即插即用的方法称为多尺度自适应切分策略(MSAC)。

MSAC可以在不同尺度的特征之间进行有效的互补,如图1(d)所示。

多尺度自适应切分策略(MSAC)

MSAC先对这些网格进行分层操作,根据它们的纵横比将它们分成三组。作者将为每个图层选择一个宽高比。不同的分层为模型提供不同的信息。

详细层负责提供详细信息。它既限制了最大图像分辨率和最小图像分辨率,使图像尽可能大,使图像中的物体更清晰。由于使用了切分策略来剪裁图像,该层生成的图像可能存在语义不一致。

因此,作者利用自适应层与细节层协同,使模型能够从各种尺度中选择未分割的对象。自适应层将根据细节层自适应生成纵横比,确保细节层上的切分线与自适应层上的切分线不重叠,进而避免了同一个物体在不同层上被切分两次。这个过程确保了细节层和自适应层为模型提供了不同的语义信息和视觉特征。

尺度压缩机制

MSAC可能会引入一些额外的计算开销。因此,作者提出了一种尺度压缩机制(SCM),用于有计算开销限制的情况。SCM是一个不用训练并且无参数的机制,以减少计算开销。

unusually

作者选择自适应层的视觉Tokens、全局层的视觉Tokens和文本Tokens来关注细节层的视觉标记,进而生成注意力图,然后将注意力图Top K的视觉特征提取出来。

一个训练好的LLM可以根据输入问题有效地选择必要的视觉特征。因此,SCM利用LLM的第一层和第二层来选择视觉Tokens,而不生成任何额外的参数。

电暖宝炸了赔偿多少

Mini-Monkey最强2B多模态大模型

作者在通用多模态理解和文档理解上测试了他们的方法,实验结果表明,Mini-Monkey在2B参数量的情况下,同时在通用多模态理解和文档理解上取得了最好的性能。

表1通用多模态理解上的结果

表2文档理解上的结果

作者将提出的MSAC和现有的方法对比,第一行是动态切分的方法,第二行是固定分辨率切分的方法,第三行是有重叠的切分,第四行是多尺度策略S2。

表3与不同的切分策略进行对比

MSAC可以应用到不同的多模态架构上,稳定提点

同时作者也将MSAC应用到其他的方法进行对比,可以看到同时在通用多模态理解和文档理解任务上都有一致的提升。

表4将MSAC应用到不同的框架上

有效缓解由切分增大分辨率导致的后遗症

荣耀x30 max发布会

同时作者也提供了一些定性的分析,如图4所示。作者对切分到的位置进行提问,比如被切分到的classrooms和school。

可以看到,Mini-Monkey通过MSAC可以有效的缓解由切分增大分辨率导致的后遗症。

图4定性结果:(a)输入图像和Ground Truth;(b)采用重叠切分策略的结果,OSC表示重叠切分策略;(c)internv2-2b和internv2-26b的结果;(d)Mini-Monkey的结果

可视化对比

Mini-Monkey能准确的提取模糊的古籍里面的文字内容,而MiniCPM-V2.6和InternVL2-2B都漏掉了比较多的文字,GPT4-O拒绝回答:

(a)输入图片

(b)Mimi-Monkey:准确识别出所有文字

(c)MiniCPM-V2.6:漏掉了很多文字。

(d)InternVL2-2B:漏掉了一整句比较模糊的文字

(e)GPT-4o:拒绝回答

总结

使用切分扩大分辨率的方法经常分割对象和连接区域,这限制了对小的或不规则形状的对象和文本的识别,这个问题在轻量级的MLLM中尤为明显。

在这项研究中,作者提出了一个取得SOTA性能的2B多模态大模型Mini-Monkey,旨在解决现有切分策略的局限性,以提高MLLM处理高分辨率图像的能力。

Mini-Monkey采用了一种多尺度自适应切分策略(MSAC),生成多尺度表示,允许模型在不同尺度上选择未分割的对象,进而缓解了这个问题。

同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的后遗症提供了一种简单有效的解决方案。


返回网站首页

本文评论
老外称惊艳!导演揭秘《流浪地球2》最难拍摄画面 中国科幻里程碑不输国外大片
电影《流浪地球2》火了,这部依托工业化摄制流程完成拍摄的电影展现出中国电影日益精进的工业实力电影,受到了全球影迷的围观,不少海外观众甚至表示,一点不比国外科幻片差,说是中...
日期:01-27
“5.11电脑健康日”启动  360称电脑可平均提速25%
  由中国互联网协会、国家互联网应急中心反病毒联盟、360安全中心、海尔、华硕、拉手网、美团网以及国内十多家知名媒体在全国范围内共同发起的“5.11电脑健康日”活动今...
日期:07-27
丰田霸道智能钥匙「实用至上!丰田决定用机械钥匙替换智能钥匙:原因无奈」
10月29日消息,丰田汽车近日宣布,由于芯片短缺,其会将新车附赠的两把智能化数字钥匙其中一把暂时替换为机械钥匙,报道称,这一变化将适用于14款丰田车型,以及9款雷克萨斯品牌车型。...
日期:11-06
多名玩家联合提起诉讼 阻止微软收购动视暴雪交易_动视暴雪诉讼案
12月21日消息,据国外媒体报道,当地时间周二,多名游戏玩家在美国旧金山法院对微软提起诉讼,称微软以收购动视暴雪公司将非法压制主机游戏行业的竞争。据悉,诉讼由来自加州、新墨西...
日期:12-21
小牛电动CEO李彦「对话小牛电动CEO李彦:我们要做有独特价值主张的产品」
雷递网 雷建平 8月5日报道小牛电动日前推出两款新品——全场景跨界机能座驾SQi及开挂电自全新UQi+2022版,开启两轮电自“个性化”新时代。据介绍,小牛电动2015年将智能和锂电...
日期:09-10
遇到“学生账户升级”信息别信 支付宝发布紧急提醒_升级支付宝学生账号?当心,这是网络诈骗新套路
【】5月30日消息,临近毕业季,骗子盯上了毕业生群体。近日,支付宝发布安全提醒,警惕“学生账户升级”骗局。假客服通常以高额利息、影响征信为名,欺骗用户将“学生账户”转为“成...
日期:09-26
网剧一闪一闪亮星星「退票率18.1%!电影《一闪一闪亮星星》超100万人次退票」
12月19日消息,据国内多家媒体报道,电影《一闪一闪亮星星》预售首日票房突破7000万,打破了《唐人街探案3》预售首日5955万元的纪录,成为预售首日票房最高的华语电影。然而票务平...
日期:12-20
iPhone不送充电器被巴西扣压数百部 苹果:正常销售中_苹果在巴西被罚款200万美元!因为iPhone不带充电头
中关村在线消息:据国外媒体曝光,巴西司法部认为苹果iPhone产品不附带充电器是“意图损害消费者利益”,消费者保护监管机构扣押了苹果多个零售店的数百部iPhone。对此,苹果表示现...
日期:11-30
2023英特尔on技术创新大会:助力开发者,让AI无处不在
通信世界网消息(CWW)当地时间9月19日,2023英特尔on技术创新大会于美国加利福利亚州圣何塞市开幕。在这一面向开发者举办的大会上,英特尔发布了一系列全新技术,旨在让AI无处不在,并...
日期:09-20
比11 Ultra更惊艳!曝小米14 Pro外观设计已完成_小米14pro是什么屏幕
近日,有网友在小米工业设计部设计总监魏旭微博下提问“小米 14 Pro 能不能继续沿用小米 11 Ultra 的外观?”。随后魏旭本人针对这一问题进行回答,表示小米 14 Pro 手机外观设计...
日期:04-24
程序员猝死前兆「29岁程序员熬夜看球后瘫了:严重会猝死」
快科技7月8日消息,据媒体报道,浙江杭州29岁的程序员单先生熬夜与朋友看完球赛后开车回家,途中突感不适,全身开始冒虚汗,20分钟的路开到家门口时已是满身大汗。准备下车时,发现自己...
日期:07-08
spacex公司总裁「14岁“天才少年”成SpaceX新员工 母亲是华尔街高管」
埃隆·马斯克(Elon Musk)的SpaceX迎来了有史以来最年轻的员工凯兰·夸齐(Kairan Quazi),他是一名14岁的孟加拉国裔美国人后裔软件工程师。夸齐在LinkedIn分享他的成就时,对加入S...
日期:06-20
同比增长105.8%!理想汽车:2024年1月交付新车达31165辆_理想汽车 2025
快科技2月1日消息,今日,理想汽车公布了2024年1月的交付数据。数据显示,2023年1月理想汽车交付15141辆,2024年1月理想汽车交付31165辆,同比增长105.8%。且2020、2021、2022、2023...
日期:02-02
中国工程院院士赵春江:中国几亿农民,受教育程度和发达国家相比大概差十几年
5月30日消息,在2023中关村论坛“智能+教育”论坛上,中国工程院院士、北京市科协副主席赵春江院士发表了主题演讲。华为手机p60pro赵春江谈到,中国是一个农业大国,有2.3亿农户,大...
日期:05-31
扫描区块链大数据公司,这是个赚钱的生意吗?_区块链赚了几千万
在“区块链”和“大数据”概念的双重加持下,有越来越多的创业公司进入这条赛道,资本市场对此也较为看好...经过这几年的发展后,各个细分赛道都涌现出了头部的大数据公司,除了Coi...
日期:08-01
阿里开源视频自动化剪辑工具FunClip 支持中文语音识别_阿里云智能剪辑
5月13日 消息:阿里巴巴通义实验室最近开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音...
日期:05-13
ai时间轴怎么做帧动画「AI延时视频生成工具MagicTime在线体验地址放出」
4月12日 消息:MagicTime是一款创新的在线工具,它能够根据用户提供的文本描述生成展示真实世界物理变化过程的时间延迟视频。这种技术的应用范围非常广泛,可以用于记录和展示各...
日期:04-13
百度将于8月30日发布二季度财报_百度四季度财报时间
讯 8月7日上午消息,百度宣布,将于2022年8月30日港股收盘后,美股开盘前(北京时间8月30日晚)发布截至6月30日的2022年第二季度财报。财报发布后,百度管理团队将于美国东部时间2022年...
日期:08-08
江歌妈妈首场直播带货:3小时售出6万件商品,呼吁网友理性消费_江秋_目的
三言科技10月10日消息,昨日晚,江歌妈妈江秋莲首次直播带货。直播间在线人数达到10万人。直播期间,江歌妈妈呼吁网友要理性消费。还有很多网友对她表示支持,为她加油打气。lol世...
日期:10-11
手机被机器人控制了怎么办「想走出这个实验室,一台手机要被机器人“敲打”20万次」
杨净 发自 凹非寺量子位 | 公众号 QbitAI北京一个150平米的厂房里,一群装有摄像头和AI算法、可自主行动的机器人正在7*24小时不间断地运作。他们只有一个目的:“攻击”人类的...
日期:05-08