您的位置:首页 > 互联网

GPT-4V惨败!CV大神谢赛宁新作:V*重磅视觉搜索算法让LLM理解力逼近人类

发布时间:2024-01-21 16:13:46  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

多模态大模型GPT-4V也会有眼无珠。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。

Sam Altman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。

但是,正如LeCun一直以来所言,如今的AI连猫狗都不如。现在看来的确如此。

GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是,它们并非真的能够做的面面俱到。

CV大神谢赛宁称有一个问题让自己彻夜难眠——

不论分辨率或场景复杂程度如何,冻结的视觉编码器通常只能提取一次全局图像token。

举个栗子,一张杂乱的桌面上放了一个星巴克陶瓷杯,而且logo图案仅漏出一半的情况下。

对此,GPT-4V却无法正确识别出来,还产生了幻觉。

再比如,图片中小孩的鞋子是什么颜色这样直观的问题。

GPT-4V给出了白色的答案。

为了解决这个LLM图像理解的隐疾,视觉搜索这一关键方法能够为大模型提供视觉信息。

对此,来自UC San Diego和纽约大学的研究人员提出了V*——引导视觉搜索作为多模态LLM的核心机制。

论文地址:https://arxiv.org/pdf/2312.14135.pdf

具体来说,研究人员将VQA LLM与视觉搜索模型相结合。

借助大模型的世界知识,V*对视觉目标进行多轮引导搜索。它能够提取局部特征,并将其添加到工作记忆中,然后,VQA LLM利用搜索到的数据生成最终反应。

有网友表示, V*模型和论文,在我看来意义重大。

就比如,GPT-4V无法解决的谷歌机器人验证,V*就可以直接找到遗漏的最后一个交通灯。

视觉搜索神助攻

实现人类智能的标志之一,便是能够处理和整合多感官信息,从而完成复杂的任务。

在我们涉及视觉信息的认知推理过程中,视觉搜索无处不在,即在杂乱的桌子上寻找钥匙,或在人群中寻找朋友。

华为手表新款watch3pro支持微信吗

此外,对于需要多个推理步骤的复杂任务来说,视觉搜索也是一个不可或缺的步骤。

受人类能力的启发,研究人员提出了SEAL(Show、SEArch和TelL),这是一种通用元架构,用于将LLM引导的视觉搜索机制集成到MLLM中,以解决模型的视觉限制。

再如上,GPT-4V识图失败的栗子,SEAL便可轻松完成。

一堆毛绒玩具中,一个猩猩抱着什么乐器?

GPT-4V:萨克斯

SEAL:吉他

繁华的都市中,一位男子手中提了一打矿泉水的瓶子是什么logo?

GPT-4V:看不清

SEAL:依云

还有行李箱上的小挂件是哪家公司的?

GPT-4V:Rubbermaid Commercial

SEAL:英特尔

在一个更直观的中,篮球运动员的球衣数字是几号?

GPT-4V:10

SEAL:8

美国开始对华为下手了

类似的例子还是有很多,看得出不论是简单的,还是复杂的视图中,GPT-4V全军覆没。

那么,SEAL框架是由何构成的?

SEAL框架+V*视觉搜索

具体来说,SEAL框架由VQA LLM和视觉搜索模型两部分组成。

典型的MLLM模型可能会由于视觉编码器的信息不足,而拒绝回答或瞎猜(即幻觉)。

与之不同,SEAL中的VQA LLM可以明确地查明缺失的视觉细节,从而为以下对象创建目标对象重点。

然后,利用丰富的世界知识和语言模型的常识,视觉搜索组件定位这些已识别的元素,并将它们添加到视觉工作记忆(VWM)中。

VWM中的这些附加视觉数据,使VQA语言模型能够提供更准确、更明智的响应。

左侧部分代表VQA LLM,它利用视觉工作记忆中的所有数据来回答问题。右侧展示了V*视觉搜索算法流程

值得一提的是,SEAL的适应性使其能够与各种MLLM基础模型配合使用。

在论文的例子中,研究人员使用LLaVA作为视觉搜索模型中的VQA LLM和MLLM。

借助这种新的视觉搜索功能,MLLM能够更好地处理,在高分辨率图像中进行准确视觉基础的情况。

丰田同意向中国车企提供汽油-电动混合动力技术系统

人类的视觉搜索过程受自上而下的特征引导和上下文场景引导,因此作者设计了一种名为V*引导视觉搜索算法,其视觉搜索模型也遵循类似的原则。

对于人类来说,这种引导主要来自于他们对物理世界的知识和经验。

因此,这一视觉搜索模型是建立在另一个MLLM的基础上的,它涵盖了关于世界的大量常识性知识,并能根据这些知识有效推理出目标在场景中的可能位置。

实验评估

现有的MLLM基准主要侧重于,提供跨各种任务类别的综合评估,并且没有充分挑战上述当前范式的具体局限性。

为了弥补这一差距并评估全新框架,作者引入了V–Bench,这是一种新的专用VQA基准,专注于高分辨率图像的视觉基础。

V-Bench是一个以视觉为中心的基准测试,要求多模态模型准确地提供特定的视觉信息,而这些信息很容易被缺乏视觉搜索功能的标准静态视觉编码器所忽视。

在图像和视频等丰富而复杂的视觉内容日益占据主导地位的世界中,MLLM能够积极关注关键视觉信息以完成复杂的推理任务至关重要。

该基准旨在强调这一基本机制的重要性,并指导MLLM的进化,以反映人类认知固有的多模态处理和推理能力。

如下是,V–Bench上不同搜索策略的评估结果。

在具体消融实验中,使用了V*算法的Vicuna-7B的模型表现更优。

最后,视觉搜索几十年来一直是cogsci/视觉科学的核心问题。有趣的是,与人眼注视相比,LLM引导V*可以达到与人类视觉搜索相当的效率!

LLM引导视觉搜索的过程如下。

作者介绍

Penghao Wu

Penghao Wu目前是加州大学圣迭戈分校计算机科学专业的硕士研究生。他于2018年在上海交通大学获得电气与计算机工程学士学位。从2023年6月开始,他便成为纽约大学研究实习生,导师是谢赛宁。

Saining Xie(谢赛宁)

谢赛宁目前是纽约大学计算机科学助理教授。据个人主页介绍,他本科毕业于上海交通大学,18年获加州大学圣迭戈分校CS博士学位。

毕业后,便在Facebook AI Research(FAIR)担任研究科学家。

他还曾与何恺明大神共同提出了用于图像分类的简单、高度模块化的网络结构ResNeXt,这篇论文发表在了CVPR2017上。

参考资料:

https://arxiv.org/abs/2312.14135


返回网站首页

本文评论
星空支持DLSS3吗 可以开dlss3吗「sega星空」
星空这款游戏可谓是目前最火最热门的游戏,虽然还没发售,但是玩家的讨论度可不低,很多玩家还不清楚星空到底支持不支持dlss3,下面就来为大家分享一下。星空支持DLSS3?苹果公司快...
日期:08-29
特斯拉1月25日发布财报 将揭晓去年四季度及全年业绩「特斯拉上周发布的2016年第四季度财报中写到」
1月4日消息,据国外媒体报道,在电动汽车方面走在行业前列的特斯拉,在当地时间本周一已经公布了去年四季度及全年的电动汽车产量与交付量,虽然全年的交付量未能实现50%的增长目标,...
日期:01-04
Redmi首款金属腕表 Redmi Watch 4 将于11月29日发布_redmi手表值得购买吗
11月24日 消息:11月29日,Redmi旗下首款金属腕表Redmi Watch4也将同步发布。挖矿导致显卡涨价据官方预热,Redmi Watch4将在屏幕、设计、材质上迎来全面升级,提供金属、皮制、橡...
日期:11-24
赛意信息携手华为联合启动第二届828 B2B企业节「赛意信息和华为有什么关系」
8 月 27 日,第二届828 B2B企业节在深圳正式开幕。赛意信息作为华为深度合作伙伴、华为云同舟共济合作伙伴,去年携手华为共同发起全国首 个基于数字赋能的 828 B2B企业节,助力广...
日期:08-29
八位堂蓝牙连接「“蓝”朋友来了,八位堂 PS 蓝牙接收器正式发布」
在追求自由、沉浸、畅爽的游戏体验上,八位堂(8BitDo)专注创新、永不止步!近日,八位堂 PS 蓝牙接收器正式发布,现已在八位堂淘宝店、微信小程序商城上架,为PS1 / PS2 游戏机玩家们带...
日期:08-10
男子包饺子放金戒指被网友质疑 霸气回应称自家开金店、寓意长寿多福
有些家庭过节的时候,喜欢在饺子、包子、汤圆、馄饨甚至月饼等里面包硬币,代表福气,谁吃到就很幸运。关于生活的照相机据九派新闻视频报道,1月21日,河南安阳一男子晒出包饺子时将...
日期:01-24
搜狗搜索logo_搜索引擎也过年 新装LOGO洋溢浓浓年味
 为迎接农历新年到来,各大搜索引擎首页均披上“过年”新装,更换了充满浓浓年味的LOGO。   其中,百度选择了家人欢聚一堂放爆竹的主题图画,且点击图画可以进入“每一次搜索...
日期:07-26
RISC-V工委会正式成立,倪光南院士任主任委员
8月31日,中国电子工业标准化技术协会(简称“中电标协”)RISC-V工作委员会正式成立。据悉,中国电子工业标准化技术协会RISC-V工作委员会简称“RISC-V工委会”,英文名称为RISC-V Ec...
日期:09-01
国庆档首日票房6.22亿「全国9月票房12.8亿 国庆档新片阵容公布:《万里归途》开分9.6」
据灯塔专业版,截至9月30日21时,2022年9月(9月1日-9月30日)全国票房12.8亿元,总场次868.1万场,总人次3217.6万人。排名方面,9月票房TOP3分别为:谷歌Nexus7冠军:《哥,你好》3.47亿亚军...
日期:10-03
工信部批准中国联通将900MHz频段频谱资源重耕用于5G系统_联通电信5G频段
11月3日消息:据工信部官网消息,工信部批准中国联通将现用于2G/3G/4G系统的904-915/949-960MHz频段(900MHz频段)频率资源重耕用于5G系统。900MHz频段具有传播损耗低、覆盖范围广...
日期:11-04
OPPO明日将发千亿参数安第斯大模型:对话能力获提升_oppo安第斯事业部工作地点
快科技11月15日消息,据媒体报道,OPPO将于明日发布个人专属、对话增强的安第斯大模型(AndesGPT),这是基于千亿参数的对话增强语言模型。OPPO明日将会在上海世博中心举行OPPO开发者...
日期:11-16
苹果试验A6处理器 预计2012年推出(苹果a6处理器相当高通)
8月13日消息,有消息透露,苹果公司预计在未来iPad和iPhone中推出的下一代处理器A6,目前已经提前进入实验阶段,预计将会在2012年上半年正式推出。 援引业内人士消息,晶片巨头台湾...
日期:07-22
rtx3060 3070 3080买哪个「有厂商扛不住了:RTX 3080出现史低价!比二手都划算」
随着以太坊完成合并导致挖矿收益锐减,加之RTX 40系显卡发布等因素刺激,市场存量显卡的价格正越来越低。有用户注意到,北美一电商正促销盈通RTX 3080 10GB显卡。虽然标价779美元...
日期:09-28
数字法开出第一枪!欧盟宣布对X启动正式诉讼,马斯克回应_欧盟数字新政
【环球时报驻德国特约记者 青木 环球时报记者 刘明】欧盟委员会网站18日发文称,已启动针对社交平台X的正式诉讼程序,评估其是否在风险管理、内容审核等方面违反欧盟《数字服务...
日期:12-20
大陆地震预警网提前预警_大陆地震预警中心官网
  (原标题:四川成都发生5.1级地震,大陆地震预警网提前8秒预警)   2月3日消息 据中国地震台网正式测定,今日00时05分在四川成都市青白江区还发生了5.1级地震,震源深度21千米...
日期:03-10
2023 年 AI 助手的崛起,交互式人工智能将于 2024 年问世_人工智能2025
12 月 26 日消息:2023 年,ChatGPT、Bard 和 Llama 等人工智能(AI)聊天机器人崭露头角,承诺将使世界变得更高效,但也可能导致数百万人失业。这些 AI 助手已帮助全球用户生成通常需...
日期:12-26
小米12S立减600 3000出头分期还免息_小米11怎么分期免息
国庆已经过完,但手机市场的促销仍在继续,现在小米12S手机立减600元,现在到手只要3399元了,还有分期免息,赠品等活动,强劲的性能配合MIUI 13不错的调校,强强联手打造的小米12S手机有...
日期:10-22
胖东来宣布员工将提前3小时下班 担心长时间工作存在健康问题_胖东来上班时间
近日,胖东来超市宣布了一项引人注目的决策:许昌地区茶叶超市的员工将提前3小时下班。这一调整迅速成为微博热搜,引发了网友的广泛关注和讨论。据了解,胖东来超市做出这一决策的...
日期:12-29
港股新东方在线涨超20%,股价创六月份以来最高_港股新东方股票实时行情
查看最新行情 美国 特斯拉 自动驾驶  讯 8月30日上午消息,港股新东方在线涨超20%,股价达27.45港元,创六月份以来最高,昨日收盘涨近6%,新东方此...
日期:09-08
苹果3月25日发布会推视频服务 邀请好莱坞明星出席_请播放苹果最新的发布会
  苹果公司进军电影行业 与奥斯卡获奖者合作拍电影    2月14日上午消息,昨天外媒BuzzFeed的一条新闻说苹果公司会在3月底的发布会上推出新的Apple News新闻+视频服务。...
日期:03-06