您的位置:首页 > 互联网

多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构Woodpecker啄木鸟

发布时间:2023-10-30 21:47:18  来源:互联网     背景:


新智元报道

编辑:好困

【新智元导读】最近,来自中科大等机构的研究人员提出了首个多模态修正架构啄木鸟,可有效解决MLLM输出幻觉的问题。

视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。

三星s20+怎么测试功能

简单来说就是:模型输出的描述与图片内容不相符。

下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。


幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。

然而,这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构啄木鸟(Woodpecker),通过修正的方式解决MLLM输出幻觉的问题。

三星galaxy a54 5g


论文地址: https://arxiv.org/pdf/2310.16045.pdf

项目地址: https://github.com/BradyFU/Woodpecker

效果展示

具体来说,Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。

例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分:


对于MLLM难以检测到的小对象,Woodpecker也可以精准修正:


面对MLLM难以解决的复杂的计数场景,Woodpecker同样可以进行解决:


对于目标属性类的幻觉问题,Woopecker处理地也很好:

中国新能源汽车出口排名


此外,Woodpecker还提供了Demo供读者测试使用。

如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。


方法

Woodpecker的架构如下,它包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正。


- 关键概念提取

关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的自行车;垃圾桶;人。

我们可以Prompt大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础。

- 问题构造

围绕着前一步提取出的关键概念,Prompt大语言模型来提出一些有助于检验图片描述真伪的问题,如图中有几辆自行车?、垃圾桶边上的是什么?等等。

- 视觉知识检验

使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。

例如,我们可以利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。因为像GroundingDINO这类视觉基础模型对图片的感知能力比MLLM本身的感知能力更强。

对于目标颜色等这类属性问题,则可以利用BLIP-2来进行回答。BLIP-2这类传统VQA模型输出答案的长度有限,幻觉问题也更少。

- 视觉断言生成

基于前两步中获得的问题以及对应的视觉信息,合成结构化的视觉断言。这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库。

- 幻觉修正

基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

实验结果

实验选取了几个典型的MLLM作为基线,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4。

论文中首先测试了Woodpecker在面对目标幻觉时的修正能力,在POPE验证集的实验结果如下表所示:


结果表明在不同的MLLM上应用Woodpecker修正后,均有不同程度的提升。

在随机设定下,Woodpecker给MiniGPT-4和mPLUG-Owl在准确率指标上分别带来了30.66%和24.33%的提升。

此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示:


从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA的颜色得分从78.33分大幅提升到155分!

经过Woodpecker修正后,四个基线模型在四个测试子集上的总分均超过500分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。

不同于以往将图片转译后送入纯文本GPT-4的做法,文章利用OpenAI最近开放的视觉接口,提出使用GPT-4(Vision)对修正前后的图片描述直接对下列两个维度进行打分:

- 准确度:模型的答复相对于图片内容是否准确

- 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:


结果表明经过Woodpecker修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。

另一方面,Woodpecker修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。

GPT-4V辅助的评测样例如下图所示:


一名宇航员主动脱离空间站

感兴趣的读者,可以读论文进一步了解更多内容。

参考资料:

https://arxiv.org/pdf/2310.16045.pdf

https://github.com/BradyFU/Woodpecker


返回网站首页

本文评论
2021年pc出货量「Canalys报告:到2027年,超过60%出货的PC将是AI PC」
**划重点:**为什么iphone的基带可以实现双5g- 美团官方辟谣华电节能环保鸿蒙HarmonyOS 2.0...
日期:01-09
《阿凡达2》:不完美,但能“救命”「阿凡达2出来了没」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者 | 李秋涵 编辑 | 魏佳,授权转载发布。12月16日,《阿凡达:水之道》(以下简称《阿凡达2》)终于上映了。“为了美丽和冒险而...
日期:12-19
DomoAI免费体验入口 AI图像重绘软件推荐_ai重绘图片
DomoAI是一款基于AI技术的图片放大和增强工具,它可以让用户输入文字或图片,让AI生成高分辨率和高细节的画作。DomoAI使用了一种生成式AI技术,叫做CLIP+diffusion模型算法,它可以...
日期:12-15
微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听
要点:微软Azure AI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对...
日期:11-15
乐视视频新动作,《海上繁花》热播,《我和我们在一起》跟档
  对不少80后、90后的老用户来说,在他们剧荒的时候,想看经典好剧时,就会去乐视视频上“挖宝”。在他们看来,当下的大部分影视剧多为快餐式消遣,在剧情上炒冷饭,今年的电视剧以...
日期:02-18
理想汽车第一季度营收187.9亿元 同比增长96%「而在今年一季度,理想汽车实现营收8.52亿元」
财联社5月10日电,理想汽车第一季度营收187.9亿元人民币,同比增长96%,预估186.8亿元人民币。跳舞一身病理想汽车预计第二季度营收242.2亿元人民币至258.6亿元人民币,同比增长177....
日期:05-10
ChatGPT和Threads用户参与度下降 可持续增长面临挑战「用户参与度 英文」
7月25日 消息:ChatGPT 和 Threads 的用户参与度近期出现下滑,反映出快速技术采用面临的挑战。其中,ChatGPT 最近出现了自2022年11月推出以来的首次用户参与度下降。从5月到6月...
日期:07-25
智慧娄底|打造基层社会治理的“娄底样板”_娄葑街道基层社会治理
  蚩尤故里,湘中明珠   作为湖湘文化的重要发源地   娄底以其深厚的人文底蕴   打造历史文化名城的“城市名片“   智慧星城,云上娄底   作为湖南省最年轻...
日期:07-10
Google+ 1年内在美国将击败Twitter(谷歌还会进入中国吗)
  8月6日消息,据国外媒体报道,彭博社和调查机构YouGov共同进行的调查显示,在使用谷歌最新社交服务Google+的美国成年人比例可望在一年内攀升至22%,超越Twitter、LinkedIn,成为...
日期:07-22
首个省部共建新一代信息技术应用创新适配基地揭牌
通信世界网消息(CWW)近日,全国首个省部共建新一代信息技术应用创新适配基地于宁夏正式揭牌。该基地由工业和信息化部网络安全产业发展中心与中国移动宁夏公司联合共建,旨在以技...
日期:08-22
TGA 2023年度游戏提名出炉!《博德之门3》《塞尔达传说:王国之泪》入选
快科技11月14日消息,从TGA官网获悉,今天凌晨,2023年TGA年度最佳游戏的提名名单正式出炉,共6款游戏获得提名。提名名单如下:《心灵杀手2》《博德之门3》《漫威蜘蛛侠2》《生化危机...
日期:11-14
信通院发布《全球数字平台治理最新发展态势(2023年)》_全球数字化治理
通信世界网消息(CWW)人工智能牵引智能时代加速到来,各国面对人工智能技术给数字平台行业竞争带来的范式演变,都积极予以回应。对全球数字平台治理的最新发展态势进行梳理与提炼,...
日期:01-18
水货手机藏木马大肆窃取隐私金山手机卫士全面查杀(安卓手机木马查杀)
  8月4日,金山手机安全中心截获Android手机木马程序Netsnd的多个变种。Netsnd手机木马窃取的信息包括:手机串号(IMEI )、手机内置软件列表、手机型号,并可伺机推广手机流氓软...
日期:07-22
红米k60参数「红米K60或为双旗舰!配置将吊打小米12」
中关村在线消息:10月8日,据相关爆料,即将在明年第一季度发布的红米K60系列新机详细参数已经曝光,新机将采用双旗舰策略,两款机型均采用旗舰芯片,标准版搭载高通骁龙8+,Pro搭载高通骁...
日期:10-09
IT行业人才竞争持续加剧,极客时间企业版课程强势赋能
  新市场时代,各个行业的竞争都开始进入白热化状态,人才对于企业的重要性开始越发凸显起来,特别是在IT行业,这种现象更为明显。为了提升人才竞争力,众多的企业都制定了持续的...
日期:01-05
华为把鸿蒙捐了_华为:鸿蒙全都捐出去了!
  (原标题:华为:已捐献鸿蒙全部基础能力、全部开源)   日前,华为官方刊文称,已于2020年、2021年分两次将鸿蒙OS的基础能力全部捐献给了开放原子开源基金会,并整合其他参与者...
日期:04-12
FTC正调查OpenAI是否违反了消费者保护法
7月14日 消息:据CNBC报道,美国联邦贸易委员会正在调查ChatGPT的制造商OpenAI,以了解该公司是否违反了消费者保护法。ipad液晶显示屏是夏普华为mate20x5g发售价一个机器人的脑...
日期:07-14
极致性能表现!OPPO Find X7搭载自研潮汐架构,游戏帧率领先同平台_oppo find x测评视频
(原标题:极致性能表现!OPPO Find X7搭载自研潮汐架构,游戏帧率领先同平台) 1月3日,OPPO宣布OPPO Find X7将搭载自研潮汐架构,通过...
日期:01-04
“东数西算”甘肃枢纽庆阳集群:现状与前景_甘肃庆阳集散中心在哪
摘要:旨在分析“东数西算”甘肃枢纽庆阳集群的发展现状、查找存在问题、展望发展前景、加快甘肃枢纽庆阳集群建设步伐。采用文献调研及实地调研方法对庆阳集群的特色优势、取...
日期:01-04
百度Apollo一口气发布五大新技术!“软硬”结合,全程高能!_百度apollo框架
  激动的心,颤抖的手,自动驾驶行业抖一抖!12月18日,2019 Apollo生态大会震撼来袭,会上宣布升级自动驾驶、车路协同、智能车联三大开放平台,新技术、新产品、新生态共同助力汽...
日期:09-04