您的位置:首页 > 互联网

超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

发布时间:2023-11-30 00:12:07  来源:互联网     背景:


新智元报道

富士康员工健康承诺书

编辑:LRS

【新智元导读】研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。

OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision-language)大模型。

鉴于OpenAI对闭源的坚持,多模态开源社区如雨后春笋般涌出了众多优秀的多模态大模型研究成果,例如两大代表作MiniGPT4和LLaVA已经向用户们展示了多模态对话和推理的无限可能性。

在多模态大模型(Large Multi-modal Models)领域,高效的模态对齐(modality alignment)是至关重要的,但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的图像-文本数据。

为了解决这一瓶颈,近日,中科大和上海AI Lab的研究者们最近推出了具有开创性意义的大型图文数据集ShareGPT4V。


论文地址:https://arxiv.org/abs/2311.12793

Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

ShareGPT4V数据集包含120万条图像-高度详细的文本描述数据,囊括了了世界知识、对象属性、空间关系、艺术评价等众多方面,在多样性和信息涵盖度等方面超越了现有的数据。


表1 ShareGPT4V和主流标注数据集的比较。其中LCS指LAION, CC和SBU数据集,Visible指明了图片在被标注时是否可见,Avg.展示了文本描述的平均英文字符数。

目前,该数据集已经登上了Hugging Face Datasets Trending排行第一。


数据

ShareGPT4V来源于从先进的GPT4-Vision模型获得的10万条图像-高度详细的文本描述数据。

研究者们从多种图片数据源(如COCO,LAION,CC,SAM等)搜集图片数据,接着使用各自数据源特定的prompt来控制GPT4-Vision产生高质量的初始数据。

如下图所示,给GPT4-Vision模型一张《超人》剧照,其不仅可以准确地识别出《超人》剧照中的超人角色以及其扮演者Henry Cavill,还可以充分分析出图像内物体间的位置关系以及物体的颜色属性等。


图1 利用GPT4-Vision 收集ShareGPT4V原始数据流程图

如果给GPT4-Vision模型一个梵高的画作《播种者》,其不仅可以准确地识别出画作的名称,创作者,还可以分析出画作所属的艺术流派,画作内容,以及画作本身表达出的情感与想法等信息。

为了更充分地与现有的图像描述数据集进行对比。我们在下图中将ShareGPT4V数据集中的高质量文本描述与当前多模态大模型所使用的数据集中的文本描述一起罗列出来:


图 2 图片-文本描述数据质量对比图

从图中可以看出,使用人工标注的COCO数据集虽然正确但通常十分的短,提供的信息极其有限。

LLaVA数据集使用语言模型GPT4想象出的场景描述通常过度依赖bounding box而不可避免地带来幻觉问题。比如bounding box确实会提供8个人的标注,但其中两个人在火车上而不是在等车。

其次,LLaVA数据集还只能局限于COCO的标注信息,通常会遗漏人工标注中没提及的内容(比如树木)。

在比较之下,我们收集的图像描述不仅可以给出综合性的描述,还不容易遗漏图像中的重要信息(比如站台信息和告示牌文字等)。

通过在该初始数据上进行深入训练后,研究者们开发出了一个强大的图像描述模型Share-Captioner。利用这一模型,他们进一步生成了120万高质量的图片-文本描述数据ShareGPT4V-PT以用于预训练阶段。


图3 图像描述模型扩大数据集规模流程图

Share-Captioner在图像描述能力上有着媲美GPT4-Vision的水平,下面是对于同一张图片的不同来源的文本描述:


图4 不同来源图像描述对比图

从上图可以看出Share-Captioner缩小了与GPT4-Vision模型在图像描述任务上的能力。可以作为收集大规模高质量图文数据对的平替。

实验

研究者们首先通过等量替换实验,在有监督微调(SFT)阶段充分展示了ShareGPT4V数据集的有效性。

从图中可以看出,ShareGPT4V数据集可以无缝地使得多种架构、多种参数规模的多模态模型的性能得到大幅提升!


图5 使用ShareGPT4V数据集等量替换SFT中图像描述数据后模型效果对比图

接下来,研究者们将ShareGPT4V数据集同时在预训练和有监督微调阶段使用,得到了ShareGPT4V-7B模型。

ShareGPT4V-7B在绝大多数多模态基准测试中都取得了非常优异的成果,在7B的模型规模全部取得了最优的性能!


图6 ShareGPT4V-7B在各个多模态基准测试上的表现

总体而言,ShareGPT4V数据集的推出为未来的多模态研究与应用奠定了新的基石。多模态开源社区有望着眼于高质量图像描述开发出更强大、智能的多模态模型。

参考资料:

https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V


返回网站首页

本文评论
携手IBM 发布Hugging Face平台最大开源地理空间AI基础模型 「NASA」_地理空间数据模型有哪些
【】8月8日消息,IBM与开源AI平台 Hugging Face 共同宣布,基于美国宇航局(NASA)卫星数据构建的IBM watsonx.ai地理空间基础模型现已在Hugging Face 发布。它将成为Hugging Face上...
日期:09-18
荣耀X50系列于7月5日发布 配备骁龙6 Gen 1处理器和1亿像素主摄_荣耀x50处理器怎么样
6月30日 消息:荣耀即将发布X50系列手机,据悉,该手机将配备一块1.5K护眼曲面屏,分辨率为2652*1200p,搭载支持5G功能的骁龙6 Gen 1处理器并提供16GB内存和512GB存储空间。此外,荣耀...
日期:06-30
1688的活动「1688推出“春节不打烊 服务1元购”活动」
1月17日 消息:2023年春节就要来了,1688推出“春节不休息,服务一元购”活动,提供工具必备攻略,协助商家备战春节。对于春节期间处理订单发货需求,1688推荐选用服务市场中的“订单...
日期:01-18
钉钉支持鸿蒙「华为、钉钉达成合作,“钉钉鸿蒙版”将原生适配鸿蒙系统」
华为、钉钉达成合作,“钉钉鸿蒙版”将原生适配鸿蒙系统 通信产业网|2023-11-23 14:50:06作者:通文来源:通信产业网【通信产业网讯】11月23日消息,钉钉与华为举办鸿蒙原生应用开...
日期:11-29
特斯拉在美遭集体诉讼 员工被曝分享客户隐私视频_美国特斯拉集体诉讼
DoNews4月10日消息,因被指控其员工分享了客户汽车摄像头拍摄的私密照片和视频,特斯拉在美遭到一起集体诉讼。该案由亨利・叶(Henry Yeh)代表自 2019 年以来拥有或租赁特斯拉汽车...
日期:10-03
京东到家预售「京东到家、京东小时购发布《京东11.11即时买菜图鉴》」
11月7日消息,今年京东11.11,低价好菜小时达成为新潮流,开门红当天,“一分钱买菜”带动生鲜、快消品类订单环比增长40%。据此,京东到家、京东小时购依托买菜消费数据发布《京东11....
日期:11-13
iqoo neo6最新消息_iQOO Neo6 官宣 4 月 13 日发布
  iQOO 手机官方今日宣布“全面进化的次世代游戏旗舰”iQOO Neo6 将于 4 月 13 日发布。   iQOO Neo6 之前刚刚通过了 3C 认证,型号为 V2196A,配备 80W 充电器。   此...
日期:05-02
几招几式玩好4399游戏盒网页游戏《傲视天地》
  4399游戏盒网页游戏《傲视天地》(如图01)是一款比较有可玩性的战争策略游戏。不造房子不造兵,但却包含精彩的故事主线、可构建庞大的团体PK战斗等多种特点;表面上看游戏过...
日期:07-22
从弹簧摆到双摆,《张朝阳的物理课》展示拉格朗日力学的优越之处
拉格朗日力学的案例分析在之前的课程中,张朝阳已经介绍了拉格朗日力学,包括变分原理等。但是我们遇到的很多力学问题使用牛顿力学都可以很好的处理,那么什么情况下使用拉格朗日...
日期:10-22
苹果2023第三财季财报将于8月4日发布「苹果第三财季是几月到几月」
7月10日 消息:根据苹果公司官网公布的消息,他们将于8月4日发布2023财年第三财季的财报。这个财报会议将在太平洋时间8月3日下午2点,也就是北京时间8月4日早上5点开始。预计包...
日期:07-10
年轻人在元宇宙抢购QQ秀 花四位数就P张图?网友直呼割韭菜
随着元宇宙概念的火热,不少人开始给自己买皮肤”了。带透明羽翼的粉色蓬蓬裙、水蓝色的美人鱼大尾巴、赛博朋克风的战袍”这些虚拟服饰每一套都附上了创作故事,探访年轻血液下...
日期:08-03
四川省教育厅携手腾讯教育发起《学习强师》,腾讯英语君以AI技术助力乡村教育振兴
  2021年是国家“十四五”规划的开局之年,将全面进入乡村振兴战略实施阶段。四川省教育厅在开展党史学习教育“我为群众办实事”实践活动中,聚焦民族地区教育信息化发展,着...
日期:07-17
腾讯注册商标网「腾讯申请注册“微信优选”“微信联盟”等商标」
  IT之家9月26日消息,近日,腾讯科技(深圳)有限公司新增多个商标申请注册信息,包括“微信优选”“微信联盟”“视频号联盟”等,国际分类涉及广告销售、教育娱乐、金融物管等,目前...
日期:10-01
小米Civi 2发布:颜值超高 共有4种配色_小米civi外观尺寸
在小米新品发布会上,小米发布了Civi系列新机小米Civi 2。该机共有4种配色,分为冰冰蓝、怦怦粉、朦朦黑以及与Hello Kitty联合设计的特别款“小白裙,每款配色的颜值都非常的高。...
日期:09-29
思享2018节目_思享无限2020年度盛典完美收官  打造独特内容生态
  2020年12月29日晚,秀色直播2020年度盛典迎来决赛巅峰对决,经过激烈的角逐,一粒彩蛋传媒、BP传媒、华星传媒、蝶依传媒分获秀色直播、乐嗨直播、嗨秀直播和蜜疯直播年度第...
日期:07-16
@山白 单条视频涨粉145万,黑马频出的非遗赛道前景如何?
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。在短视频领域,非遗内容赛道一直以来处于不温不火的状态,它制作门槛高,周期长,需要创作者投入很大...
日期:09-01
国美零售港股盘中涨超30% 消息称国美电器将启动门店直播「国美零售港股价格」
11月25日 消息:今日盘中,国美零售港股一度涨超30%,截至发稿,国美零售上涨34.45%,报0.160港元,总市值57.15亿港元。特斯拉model y车评此前, 有消息称,国美电器将在全国各地门店陆续...
日期:11-29
ICDAR 2019国际竞赛召开在即,百度联合学界重奖破局者!_ICDAR比赛
  ​赛事介绍   文档图像识别领域有“世界杯”之称的ICDAR 2019国际权威竞赛于3月1日即将正式开赛。作为ICDAR 2019 Robust Reading Competition竞赛主要组织者之一,百...
日期:06-23
在寺库奢侈购物可靠吗「奢侈品电商第一股寺库人去楼空」
  来源:北京商报  寺库的危机正在不断浮出水面。8月16日,北京商报记者探访发现,曾经摆满了奢侈品的寺库大厦如今已空空如也,仅剩5层还有部分工作人员,大厦内还专门设立了消费...
日期:10-03
高盛:生成式AI将极大提高音乐创作能力「高盛icp」
7月5日 消息:高盛(Goldman Sachs)表示,生成式人工智能(AI)将导致音乐行业发生根本性变革,并为该行业提供“重大机遇”。该公司在6月28日的报告中指出,生成式AI将极大地提升音乐创...
日期:07-05