您的位置:首页 > 互联网

多模态大模型能力测评:Bard 是你需要的吗?

发布时间:2023-08-30 22:35:10  来源:互联网     背景:

机器之心专栏

机器之心编辑部

为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny LVLM-eHub。

继 ChatGPT 之后,OpenAI 直播展示了 GPT-4 强大的支持 visual input 的多模态能力,虽然视觉输入目前还没大规模开放使用。随后学术界和工业界也纷纷把目光聚焦到多模态大模型(主要是视觉语言模型)上,比如学术界的 LLaMA-Adapter 和 MiniGPT-4,以及工业界最具代表的来自谷歌的 Bard,而且 Bard 已经后来居上开放大规模用户使用。但是学术界发布的模型大多只在部分多模态能力(少数相关数据集)上进行了评估,而且也缺少在真实用户体验上的性能对比。Bard 开放视觉输入之后也没有给出官方的多模态能力报告。

在此背景下,我们首先提出了多模态大模型多模态能力的全面评估框架 LVLM-eHub,整合了 6 大类多模态能力,基本涵盖大部分多模态场景,包括了 47 + 个相关数据集。同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场,让真实用户来提问和投票哪个模型表现得更好。



LVLM-eHub 论文地址:
https://arxiv.org/abs/2306.09265

Multi-Modality Arena:https://github.com/OpenGVLab/Multi-modality-Arena

项目网址:
http://lvlm-ehub.opengvlab.com/

在此基础上我们还将原有每个数据集精简到 50 个样本(随机采样),推出 Tiny LVLM-eHub,便于模型快速评估和迭代。设计了更加准确稳健并且与人类评估结果更加一致的评估方法,集成多样评估提示词下的 ChatGPT 评估结果(多数表决)。最后同时加入了更多多模态大模型,其中谷歌的 Bard 表现最为出色。

苹果什么时候推出apple gpt?



Tiny LVLM-eHub 论文地址:
https://arxiv.org/abs/2308.03729

Multimodal Chatbot Arena:http://vlarena.opengvlab.com

多模态能力与数据集

我们整合了 6 大类多模态能力:

a. 视觉感知(visual perception)

b. 视觉信息提取(visual knowledge acquisition)

c. 视觉推理(visual reasoning)

d. 视觉常识(visual commonsense)

e. 具身智能(Embodied intelligence)

f. 幻觉(Hallucination)

前两类涉及到基础的感知能力,中间两类上升到高层的推理,最后两类分别涉及到将大模型接入机器人后的更高层的计划和决策能力,和在大语言模型(LLM)上也很危险和棘手的幻觉问题。

具身智能是大模型能力的应用和拓展,未来发展潜力巨大,学术界和工业界方兴未艾。而幻觉问题是在将大模型推广应用过程中众多巨大风险点之一,需要大量的测试评估,以协助后续的改善和优化。



六大多模态能力结构图

多模态大模型竞技场

多模态大模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。用户上传图片和提出相应问题之后,平台从后台模型库中随机采样两个模型。两个模型分别给出回答,然后用户可以投票表决哪个模型表现更佳。为确保公平,我们保证每个模型被采样的几率是相同的,而且只有在用户投票之后,我们才展示被采样模型的名称。流程样例见下图。



多模态大模型竞技场示意图

评估方法



评估方法示意图

LVLM-eHub 默认使用 word matching(只要真实答案出现在模型输出中,即判断为正确)来做快速自动评估。特别地,对于 VCR 数据集,为了更好地评估模型性能,我们采用了 multi-turn reasoning 评估方法:类似 least-to-most 提示方法,首先经过多轮的 ChatGPT 提出子问题和待评估模型给出回答,最后再回答目标问题。另外对于具身智能,我们目前完全采用人工的方式,从 Object Recognition、Spatial Relation、Conciseness、Reasonability 和 Executability 五个维度进行了全方位评估。

多提示词投票评估方法

Tiny LVLM-eHub 设计并采用了多提示次投票评估 评估方法,可以克服词匹配评估方法的缺陷,具体来说,词匹配在以下两个场景下都会失效:(1)模型输出中可能出现包括真实答案在内的多个答案;(二)模型输出与问题的参考答案在语义上是相同的,只是表述不同。



基于 ChatGPT 的多指令集成评估方法示意图

另外我们通过实验(结果见下表)发现我们提出的评估方法与人类评估结果更加一致。



CEE 评估方法和词匹配方法与人类评估一致性的比较

评估结果

在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上,评估结果显示 InstructBLIP 表现最佳。通过对比模型训练数据集之间的差异,我们猜测这很可能是因为 InstructBLIP 是在 BLIP2 的基础上再在 13 个类似 VQA 的数据集上微调得到的,而这些微调数据集与上述 5 类多模态能力相应的数据集在任务和具体数据形式和内容上有很多相同点。反观在具身智能任务上,BLIP2 和 InstructBLIP 性能最差,而 LLaMA-Adapter-v2 和 LLaVA 表现最好,这很大程度上是因为后者两个模型都使用了专门的视觉语言指令遵循数据集进行指令微调。总之,大模型之所以在众多任务上泛化性能很好很大程度上是因为在训练或微调阶段见过相应任务或者相似数据,所以领域差距很小;而具身智能这种需要高层推理、计划乃至决策的任务需要 ChatGPT 或 GPT-4 那种逻辑性、计划性和可执行性更强的输出(这一点可以在下面 Bard 的评估结果上得到印证:Bard 的具身智能能力最好)。



LVLM-eHub 中八大模型在六大多模态能力上的性能图

截止目前,我们在多模态大模型竞技场平台收集了 2750 个有效样本(经过过滤),最新的模型分数和排名见下表。从真实用户体验上来看,InstructBLIP 虽然在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上表现最好,但在 Elo 排名欠佳,而且 BLIP2 的用户评价最差。相应地,在经过 ChatGPT 优化过的指令遵循数据集上微调之后,模型输出更受用户青睐。我们看到,在高质量数据上指令微调后的模型 Otter-Image 居于榜首,在 Otter 模型的基础上实现了质的飞跃。



多模态竞技场模型排行榜

在 Tiny LVLM-eHub 上,Bard 在多项能力上表现出众,只是在关于物体形状和颜色的视觉常识和目标幻觉上表现欠佳。Bard 是 12 个模型中唯一的工业界闭源模型,因此不知道模型具体的大小、设计和训练数据集。相比之下,其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答,而 Bard 支持多轮对话。相信 Bard 的能力不止于此,仍需要挖掘。



Bard Demo

Bard 很好地理解了图像的不寻常之处,拥有类似于人类的理解能力。它甚至可以根据图像做出关联,指出生活与艺术之间的关系。



Bard 相对较好地理解了复杂的食物链,并且回答了问题(在图中以蓝色标出),同时给出了超出问题范围的对食物链的更详细解释。



Bard 具有一定的多模态推理能力,可以正确回答那些需要根据图表(蓝色部分)进行一些推理的问题,但在准确识别图片中的详细信息方面仍然存在一些问题(红色部分)。



Bard 可以相对准确地以文字的形式生成目标检框。



5G资费下降

与 GPT-4 类似,Bard 具有将手绘的网页设计转化为 HTML 代码的能力,并且更准确地识别网页的布局,甚至成功地将 “照片” 部分识别为需要导入图像的区域。



对于小学数学问题,Bard 错误地理解了问题,并且尽管之后的计算过程是正确的,但它还是给出了错误的答案。



Bard 仍然容易受到幻觉问题的影响。我们发现,如果在提示中提供了某些虚假的线索,Bard 仍然会在其基础上胡言乱语。



我们手动在图像上添加了一条红色的对角十字,然而 Bard 回答说图片中没有红色的物体。此外,奇怪的是,Bard 回答这个问题时好像完全忽略了我们添加的红色十字标记。



未来工作

尽管在 (Tiny) LVLM-eHub 中的评估是全面的,但我们仅评估了各种 LVLM 的多模态能力边界。事实上,LVLM 的评估还必须考虑其他关键因素,如内容安全、偏见和种族歧视等。由于这些模型生成的有偏见或有害内容可能造成潜在危害,因此必须彻底评估 LVLM 生成安全和无偏见内容的能力,以避免持续传播有害刻板印象或歧视态度。特别是,在进一步探索 LVLM 的发展时,应考虑如何增强对视觉常识的理解,并减轻幻觉问题。


返回网站首页

本文评论
微信百万保障要钱吗「微信“百万保障”不关闭将扣费十万元?官方回应」
快科技7月6日消息,近日网上出现了关于微信百万保障”的新骗局,以快递丢件理赔为由加好友,诱导受害人去虚假关闭百万保障”,最后诱导受害人转账从而实施诈骗。小米生态链总监孙鹏...
日期:07-06
要卖的得赶快出手了!苹果发布iOS 17后iPhone 8/X机型将贬值40%以上「17年苹果8手机价格」
苹果上周发布了 iOS 17 开发者预览版 Beta 1 更新,不过三款机型 – iPhone 8,iPhone 8 Plus 和 iPhone X并未获得升级。据二手回收商 SellCell 公布的最新报告显示:iPhone 6S和...
日期:06-15
手机通话加密怎么设置「手机通话加密」
是一种保护电话通讯安全的技术,其可以防止电话被监听或窃取。技术是一种对话保密的技术,它采用特殊的加密方式,将用户的通话内容加密,保护电话通讯的安全性。技术主要是通过加密...
日期:05-28
华为p60Pro概念图「惊艳!华为P60概念图曝光」
近日,数码博主@RODENT950在国外社交平台上曝光了两张华为P60的概念图,图片显示背部设计和P50基本一致,令人意外的是,概念图显示P60似乎配备的类似iPhone14Pro系列的灵动岛式药丸...
日期:10-12
视频发布管理及播放统计 CC视频让企业更懂自己
  在如今的网络世界,企业官方网站做为企业在网络瀚海中的对外宣传窗口,企业都会将自己最闪亮的一面放置在官方网站上,让网民通过官方网站对企业能有一个较好的印象。而企业...
日期:07-23
实在智能RPA入选Gartner首份中国RPA魔力象限报告
近日,全球专业IT研究与顾问咨询公司Gartner重磅发布新报告——《中国RPA魔力象限报告》(China Context: Magic Quadrant for Robotic Process Automation)。此次报告是首份中国...
日期:11-26
阅文集团盈利能力分析_阅文集团上半年营收40.9亿元 净利6.7亿元基本持平
查看最新行情   讯 8月15日下午消息,阅文集团今日发布截至6月30日的2022年上半年财务报告。财报显示,2022年上半年,阅文集团营收为40.9亿元,同比下降5.8%,...
日期:08-17
苹果发布 iOS 17系统:引入“海报”和“NameDrop”等功能
IT之家6月6日消息,苹果正在召开的WWDC 2023开发者大会上,宣布推出了iOS 17系统,预估今年秋季上线的iPhone 15系列机型将率先搭载。苹果iOS 17更注重细节方面的优化,重点调整锁屏...
日期:06-06
估值15亿美元的独角兽被爆裁员,又一赛道遇冷?_独角兽估值10亿美金
蔡依林三星手机代言人   作者/蛋总   近日,一家估值破10亿美元的智能健身镜独角兽,被爆裁员了。   7月22日,据界面新闻报道,FITURE魔镜于上周进行了一次大规模裁员,涉及人...
日期:07-31
小米手机官网报价_小米手机官网报价表
小米手机是一款深受消费者喜爱的手机品牌,迅速的成长为国内与国际市场销售的龙头品牌之一。小米手机的口号是“为发烧而生”。凭着低价高性能的理念,小米在国内外市场引起了极...
日期:05-29
腾讯宣布架构变革,开启下一个产业互联网时代_腾讯宣布架构变革,开启下一个产业互联网时代
  今天,腾讯在20岁生日之际,宣布组织架构调整方案:既保持深耕垂直领域的优势和特点,保留原有的企业发展事业群(CDG)、互动娱乐事业群(IEG)、技术工程事业群(TEG)、微信事业群(...
日期:02-11
腾讯减持美团?时间点很重要「腾讯减持美团?时间点很重要吗」
  每经记者 王郁彪;杨昕怡;;每经编辑 刘雪梅;;  继相继减持京东(HK09618,股价221.2港元,市值6909亿港元)、海澜之家(SH600398,股价4.5元,市值194.38亿)、Sea Limited(SE,股价89.9...
日期:09-07
618趋势品类手机备受青睐 京东依托供应链优势联合厂商推新品、创增长
近年来,在手机市场中,折叠屏手机、电竞手机等趋势品类展现良好发展态势,凭借着个性化的外观以及良好的使用体验,成为消费者手机换新时的新选择。今年618,依托渠道与厂商的钜惠福...
日期:06-21
7个基于ChatGPT的有意思小产品
声明:本文来自于微信公众号 凯凯而谈(ID:web-bear),作者:凯凯刘,授权转载发布。Chatgpt最近有点火热,每天的热榜里也有不少相关内容。达到100万用户所花费的时间:Netflix -3.5年F...
日期:12-12
AMD锐龙8000 APU浮出水面:Zen5、RDNA3.5绝配_锐龙a8 7500
按照惯例,AMD将在明年初发布锐龙8000系列移动处理器,工艺、架构都会有全面提升,其中CPU用上Zen5、Zen5c的大小核组合,GPU则升级为RDNA3.5。曝料显示,AMD正在准备两大系列的锐龙80...
日期:07-18
正式版Harmony OS3本月推送更新 华为P50/Mate 40在列
中关村在线消息:华为Harmony OS3手机操作系统正式版将于本月底正式推送更新,本次更新升级名单如下,快来看看有没有你的机型吧:苹果耳机airpods销售量2021国产旗舰机哪些值得入手...
日期:10-11
刀削面征服法国人「中国小伙巴黎卖刀削面:目标日进1千欧元」
由于文化传统的差异,真正的中餐在海外很难打开局面,不过网名巴黎小郭郭Paris”的博主郭章龙最近在法国巴黎把山西刀削面给带火了。据悉,郭章龙是一家贸易公司和媒体公司的老板,...
日期:10-22
有灵性的数字「发布“有灵魂”的数字人,360给行业带来了什么?」
声明:本文来自于微信公众号 罗超频道(luochaotmt),授权转载发布。“赤壁之战的时候如果有iPhone你会怎么使用?”在360智脑大模型应用发布会上,周鸿祎问了“诸葛亮”一个问题。“...
日期:06-15
联想y470n「联想y470能用单条8g内存嘛」
联想Y470n是一款注重性能的笔记本电脑。它采用第二代英特尔酷睿i5处理器,具有4GB内存和500GB硬盘驱动器,搭载了Nvidia Geforce GT 555M独立显卡,可以提供良好的图像和视频处理...
日期:05-31
Windows 10 21H2太阳谷_微软暗示 Win11 23H2 重大版本“太阳谷 3”将“精细投资”
  据 Windows Latest 报道,在 Windows 11 的发布活动中,微软表示将重新关注这个成名的操作系统。作为提高 Windows 普及度努力的一部分,微软将部分 Windows 开发转移到 Pano...
日期:07-18