您的位置:首页 > 互联网

首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!_图像序列命名

发布时间:2024-01-31 11:46:11  来源:互联网     背景:

要点:

图像序列是什么

1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。

2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。

3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。

1月31日 消息:近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型(MLLM)设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。

图像序列命名

项目地址:https://mementos-bench.github.io/

测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象,而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。

b站上市主体

在具体的图像案例中,MLLM对于漫画中的场景和行为理解存在明显的困难,例如将人物行为错误识别为持武器相互打斗。作者还指出,这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外,测试结果还表明,训练数据的局限性对于开源MLLM的推理能力有直接影响,强调了训练数据的重要性。

Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估,揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。


返回网站首页

本文评论
官宣倒计时!小米14系列即将发布:首发迄今最完美徕卡镜头_小米14相机
快科技10月22日消息,小米年度重磅旗舰小米14系列本月发布已是板上钉钉,但具体发布时间官方迟迟没有公布。距离10月结束还有9天,预计小米14系列将在下周正式开启预热,并公布发布...
日期:10-22
浩辰cad多段线_浩辰CAD架空线路优化设计软件初评
  设计人员在做架空线路工程设计时常常需要利用采集的GPS或者全站仪数据进行平断面的绘制、走径图的绘制、导线力学弧垂计算、工程材料统计等工作,如果利用普通的CAD平台...
日期:07-23
电竞比分网是趋势?你与电竞大咖可能差了一个app的距离(比分网 电竞)
  近年来,中国电竞产业从萌芽发展阶段慢慢蜕变,初步实现了成熟化运营并形成了一个较为完善的产业链。其中包括了电竞游戏开发和运营、电竞赛事运营以及电竞俱乐部以及电竞...
日期:04-21
OpenAI最新功能:多GPTs协同工作 @谁,谁出来干活
要点:1、OpenAI的新功能允许用户在对话中@不同的GPT,实现多个GPT协同配合完成任务。联想 智慧城市2、该功能使得使用GPT的方式更加中心化,可以实现多个GPT的联动协作。亚马逊...
日期:01-29
独家: Kappa的私域会员数字化增长与运营_kappa会员卡
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。这天,一位连锁品牌高层和见实团队一起讨论他们的私域运营优化建议。对方自营、连锁加盟之下,累积全国...
日期:06-28
苹果Vision Pro头显会颠覆XR行业吗?HTC王雪红:重大分水岭
快科技6月6日讯,苹果在今天凌晨的WWDC上发布了外界期待已久的MR头戴设备Vision Pro,定价3499美元,预计2024年在美国上市。有关月亮的传说故事简单概括它的出现让HTC公司十分兴...
日期:06-06
腾讯控股:回购125万股,共耗资约3.53亿港元_腾讯回购股份的原因
  财联社9月26日电,腾讯控股在港交所发布公告,当日回购125万股,回购价格为273.2-287.4港元,共耗资约3.53亿港元。android 全面屏手机适配蘑菇街市值pixel3xl如何隐藏刘海SITA...
日期:10-04
抖音生活服务:未来一年将投入5亿元扶持优质探店内容_抖音里的生活服务在哪里打开
10月25日消息,今日,抖音生活服务宣布推出“美好生活发现计划”,作为“生活服务数字创新提升行动”的重要组成部分,计划在未来一年投入5亿元,帮助商家匹配到更合适的达人,提高经营...
日期:10-26
迪普科技助力交通运输部路网中心——为全面建成公路视频联网的部级监测体系提供安全支撑
  近期,迪普科技中标交通运输部路网中心公路网运行监测与服务平台建设项目,该项目涉及多台高端防火墙、入侵防御、负载均衡和流量清洗产品以及DPX8000系列高性能安全网关,部...
日期:05-21
IBM watsonx:开启企业AI之门的独特机遇
生成式AI的崛起不仅引领了人工智能领域的质变,也为IBM这样在AI领域拥有几十年经验的公司带来了前所未有的市场机遇。IBM希望通过watsonx平台,将AI引入企业核心业务,为企业提供...
日期:09-15
深圳缴获30多万个假冒英特尔及AMD商标
  30多平方米的仓库里,摆着一箱箱的AMD及位于Intel商标标志,执法人员花3小时才清点完毕。昨日,记者从市市场监管局福田分局获悉,位于华强北的一大型销售假冒商标标志的窝点被...
日期:07-25
iOS 17将至!苹果WWDC23日程出炉:6月6日开幕_2020苹果wwdc
苹果宣布了今年的WWDC23开发者大会日程,将于6月6日至10日以线上形式举行。主题演讲将于北京时间6月6日凌晨1点开始,苹果将宣布iOS 17、iPadOS 17、macOS 14、tvOS 17和watchOS...
日期:05-24
iPhone 14再翻车!车祸检测屡次误报_iPhone12大规模翻车
今年新发布的iPhone 14有一个亮眼功能是结合iOS 16系统增加的车祸监控的功能。此前的新闻中,有车主驾车撞树触发了车祸检测,iPhone 14也表现优秀,不过从新的消息来看,iPhone 14...
日期:10-15
外媒评海信激光电视L9H“最佳大屏电视”「海信激光电视l9评测」
近日, 2023 年Tom's Guide Awards获奖名单公布,海信激光电视L9H凭借高质的大屏体验和音画效果,荣获“最佳大屏电视”奖。该奖项由国际知名科技媒体Tom's Guide颁发。评奖委员会...
日期:07-07
海盗船3000 8g_海盗船发布 4TB 高容量 SSD,读取速度可达 3.5GB/s
  6 月 3 日消息 根据外媒 TechPowerUp 的消息,海盗船公布了其 MP510 M.2 SSD 的 4TB 高容量版本。   海盗船 4TB 版 MP510 采用了 PCI-Express 3.0 x4 接口,支持 NVMe...
日期:07-14
施耐德电气王洁:跨国公司如何赋能全球可持续发展「施耐德电气(中国)有限公司副总裁」
(原标题:施耐德电气王洁:跨国公司如何赋能全球可持续发展) 距“巴黎协定”已经过去八年了,我们是否仍走在全球升温1.5°C以内的...
日期:09-15
向管理和人才要效益 伊利股份预定下一个十年增长_伊利股份潜力
  讯 7月26日晚消息,伊利股份发布公告,拟推出为期十年的员工持股计划。  从持股计划启动条件看,伊利对企业未来业绩增长及资本市场表现非常乐观。徐起旗舰机怎么样  激发...
日期:07-30
Midjourney年收入2亿美元,估值高达100亿美元_1320万美金年收入
划重点:荣耀30优惠m3u8文件怎么转换成mp4nothing phone1是安卓的吗redmik20屏幕多少钱...
日期:11-07
里程碑:微软 Win11 21H2 预览版已面向商业用户和企业推出,先于普通用户
  9 月 3 日消息 据 Windows Latest 报道,Windows 11 21H2 版本(Windows 11 的第一个版本)将于 10 月 5 日发布,其预览版现已面向商业客户推出。   报道称,今日早些时候,...
日期:07-17
iphone15pro max全球最好价格iPhone-15 Pro Max居榜首 美国手机销量榜出炉
来源:中关村在线亚马逊今日股价近日,美国手机市场最新销售数据公布。根据Counterpoint的榜单显示,10月份美国最畅销手机排行榜前五名中有四款为iPhone产品。其中,iPhone 15 Pro...
日期:12-27