您的位置:首页 > 互联网

全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

发布时间:2023-10-23 22:44:48  来源:互联网     背景:

要点:

  • 提出了一种新的视觉提示方法 SoM,可以让 GPT-4V 在细粒度视觉任务上有更好的表现。

  • SoM 通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。

  • SoM 可以让 GPT-4V 适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。

研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。

然而,GPT-4V 在细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。为了解决这个问题,研究人员提出了 SoM 方法,它可以让 GPT-4V 在不需要任何微调或额外数据的情况下,完成各种细粒度视觉任务。

论文地址:https://arxiv.org/pdf/2310.11441.pdf

论文主页:https://som-gpt4v.github.io/

SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。

研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4V 的生成能力来产生文本之外的输出,如掩码或框。

炮塔防御2攻略阵型图

研究人员在多个视觉任务上评估了 SoM 的效果,包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域,并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了分而治之(divide-and-conquer)的策略来运行实验和评估,即对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。

研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示,SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是,在 COCO 和 ADE20K 上的开放词汇图像分割任务上,SoM 的零样本性能接近微调后的 MaskDINO,并大幅优于 OpenSeeD。

在 RefCOCOg 上的参考分割任务上,SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上,SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上,SoM 实现了优于其他专用视觉模型的最佳追踪性能(78.8J&F)。

研究人员还进行了消融研究,探讨了标记类型和真值掩码对 SoM 的影响。结果表明,添加额外的框可以显著提升性能,而使用真值掩码可以将参考分割的性能提升14.5%(mIoU)。这些结果表明了 SoM 的有效性和灵活性,以及 GPT-4V 在细粒度视觉任务上的潜力。


返回网站首页

本文评论
redmi 10a「百元机标杆?Redmi 11A正式入网」
500元的手机可以做到什么地步?在网上搜索这个价位基本没几家在做了,TOP级别的厂商只有Redmi在做。现在Redmi11A已经正式入网。nsc网络安全大会从入网证件照来看,Redmi10A正面...
日期:11-11
限购1台:iPhone 13双11立减800 到手4388「双11苹果13优惠」
iPhone 13是去年的苹果主力机型,但虽然已经开售了一年,但虽然是去年的旗舰,至今关注度依然很高,今年11·11的双十一价立减800元,到手现在只要4388元。目前苹果最新的芯片虽然iPho...
日期:10-31
iQOO z1续航_高刷和续航二选一?iQOO Z1x曝光:5000mAh大电池+120Hz高刷全都有
  和普通手机屏幕相比,高刷新率屏幕因为有着更流畅平滑的画面显示效果,已经成为当下用户购买5G手机的必选条件,但多数用户也十分在意高刷新率手机带来的一系列功耗问题。前...
日期:07-14
3000亿美元巨擘,全球SaaS头牌的掘金之路「全球最大saas公司」
声明:本文来自于微信公众号 亿邦动力(ID:iebrun),作者:雷宇,授权转载发布。全球最成功的SaaS企业是谁?不是高喊“干掉软件”的Salesforce,也不是领导独立站大军的Shopify,当然也不...
日期:02-02
力推F5.5G!华为发布三阶段全光目标网架构:让万兆网无处不在_华为fttr全光组网方案
快科技10月14日消息,据华为中国”官方公众号介绍,华为光产品线总裁靳玉志近日发表了题为将F5.5G带入现实,迈向智能世界的关键里程碑”主题演讲,首次提出三阶段建网理念。他认为...
日期:10-16
提出“十大前瞻” 启明创投&未尽研究发布《生成式AI》报告_启明创投大股东
【】7月7日消息,在2023世界人工智能大会(WAIC)启明创投论坛“生成式AI与大模型:变革与创新”上,启明创投携手未尽研究,共同发布报告《生成式AI》| State of Generative AI 2023。2...
日期:09-21
货拉拉2023新春拉货节收官:活动总参与人数同比上涨10%_货拉拉最新进展
货拉拉“2023新春拉货节”日前落下帷幕,从去年12月22日开启至今,活动总参与人数同比增长了10%,装修建材、物流快递、小商品、鞋服布料等类别的订单量遥遥领先。据悉,货拉拉为了...
日期:01-13
少年的力量:百度沸点2019里的中国95后“新风貌”
  “一代人终将老去,但总有人正年轻”,从80后到90后再到95后,社会对年轻一代的成长总是充满了期待。如今,95后人群正逐步走向社会,而这些“新鲜血液”们特有的激情与自信,也让...
日期:04-04
幸福感溢满全场 男老师收到花:边走边拍 开心炫耀
9月9日消息,河南洛阳,有网友晒出在校园里偶然拍到的一幕,配文:一路走一路拍,这一天老师也好开心。画面中一名中学男老师拿手机举着一束花不停拍照,从背影都能感受到他的好心情,幸福...
日期:09-10
完美视频大全下架了?当贝市场分享更实用的影视app_完美视频大全下架了吗
  众所周知,完美视频大全被用户称为最好用的视频软件,这得益于其完全免费的影视资源。但是最近有不少用户反馈,在当贝市场中已经搜不到完美视频大全了。如何找到一款能够...
日期:01-28
英伟达 RTX 4080 公版显卡实物曝光,与 RTX 3090 很像「RTX 3080显卡」
IT之家 9 月 2 日消息,英伟达 RTX 40 系列显卡预计会在 9 月或 10 月发布,今日,爆料者KittyYukko 放出了一张标有“RTX 4080”的显卡图片,并称“和 RTX 3090 公版非常像”。从图...
日期:09-06
球王梅西将在14日与淘宝主播李宣卓亮相直播间_这就是梅西,无法阻挡的球王梅西
6月12日 消息:据报道,梅西将于 6 月 14 日在遥望旗下淘宝主播李宣卓的直播间亮相,这也将是他此次中国之行中与粉丝互动的唯一机会。曝三星galaxy s23完整配置苹果a16芯片是不...
日期:06-12
国际版vivo X100 5G手机规格曝光:天玑8系列芯片、5000mAh电池「vivox70海外版」
据国外科技媒体The Tech Outlook报道,vivo计划在今年第四季度推出国际市场的X100 5G手机,并已经曝光了相关规格信息。根据爆料显示,国际版X100 5G手机的型号为V2308。与之前报...
日期:07-23
利润大涨20% 中国第二大5G巨头中兴发财报:已投入6G研发
快科技8月19日消息,日前中国第二大5G巨头中兴发布了2023半年报,上半年实现营收607亿元,同比增长1.5%,净利润54.7亿元,同比增长19.9%。从具体业务来看,中兴运营商网络、政企业务、...
日期:08-19
以色列方案「OpenAI CEO:以色列将在降低技术风险方面发挥「巨大作用」」
6月6日消息:以色列在减少人工智能风险方面将发挥重要作用,即使该国正在就 ChatGPT 背后的技术是否以及如何进行监管展开辩论,这是 OpenAI 首席执行官 Sam Altman 周一的预测。...
日期:06-06
国美零售:预计2022年经营亏损同比扩大35%至65% 逾期贷款约30亿元
10月30日消息,国美零售发布盈利警告补充公告,预计2022年全年归属于母公司拥有者应占经营亏损将比去年同期扩大35%至65%之间。公告显示,截至2022年9月30日,国美零售逾期贷款约为...
日期:11-03
数字中国峰会上的慈悲与爱 “一带一路”数字佛教共享科技成果
  2019年5月6日至8日,第二届数字中国建设峰会在福建省福州市举办。中国数字经济优秀企业——网龙网络控股有限公司携多款智慧产品亮相峰会。其中,佛教通作为网龙重要参展...
日期:06-18
骁龙8 Gen2快充之王来了!真我GT Neo5 Pro闪充飙至240W「真我gt neo快充协议」
快科技6月30日消息,博主数码闲聊站暗示,真我GT Neo5 Pro最高支持240W有线闪充。在骁龙8 Gen2机型中,真我GT Neo5 Pro将会是快充功率最高的机型。当然,这也是充电速度最快的骁龙8...
日期:06-30
黑客暗网叫卖数千个Disney+账户,每个售价3美元
  11月19日消息据外媒报道,刚刚上线,就有成千上万的Disney+用户帐户被黑客窃取,并在暗网上出售。   Disney+是迪士尼于上周二正式启动的一项新的基于订阅的流媒体服务,在...
日期:01-25
SpaceX申请的Starlink农村宽带补贴被取消_SpaceX Starlink
《华尔街日报》8月11日报道,美国联邦通讯委员会(简称FCC)取消了此前授予马斯克的SpaceX和一家小型互联网供应商的20多亿美元赠款,因为FCC裁定这些公司不可能满足政府对帮助扩大...
日期:08-19