您的位置:首页 > 互联网

用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景

发布时间:2024-05-30 14:44:16  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:杨灵,授权转载发布。

高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。

那么,Edit the World试试。

OPPO录屏怎么没有声音怎么办

图片

来自北京大学、Tiamat AI、天工AI、Mila实验室提出了EditWorld,他们引入了一种新的编辑任务,即世界指令(world-instructed)图像编辑,它定义和分类基于各种世界场景的指令。

图片

在一组预训练模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一个带有世界指令的多模态数据集。

在该数据集训练了一个基于扩散的图像编辑模型EditWorld,结果在其新任务的表现明显优于现有的编辑方法,实现SOTA。

wwdc会发布mac吗

图像编辑新SOTA

现有的方法通过多种途径实现高质量的图像编辑,包括但不限于文本控制、拖动操作以及inpainting。其中,利用instruction进行编辑的方法由于使用方便受到广泛的关注。

48230米等于多少千米

尽管现有的图片编辑方法能够产生高质量的结果,但它们在处理传达物理世界中真实视觉动态的世界动态方面仍然存在困难。

如图1所示,无论是InstructPix2pix还是MagicBrush都无法生成合理的编辑结果。

图片

为了解决这一问题,团队引入了一项新的任务,称为world-instructed image editing,使图像编辑能够反映真实物理世界和虚拟媒体中的“世界动态”

具体来说,他们定义并分类了各种世界动态指令,并基于这些指令创建了一个新的多模态训练数据集,该数据集包含大量的输入-指令-输出三元组。

最后,团队使用精心制作的数据集训练了一个文本引导的扩散模型,并提出了一种零样本图像操作策略,以实现world-instructed image editing。

三星安卓13系统升级名单

根据现实世界以及虚拟媒体中的任务场景,将world-instructed image editing分为7种认为类别,并对每一种类别进行了定义与介绍,同时提供了一个数据样例。

图片

随后团队设计了文本到图片生成以及视频分镜提取两个分支来获取数据集。

文本生成图片分支是为了丰富数据场景的丰富性,在该分支下,团队首先利用GPT生成文本四元组(包括input图片描述、instruction、output图片描述以及关键词),接着利用input以及output描述生成对应文本的图片,利用关键词对应的attention map对编辑位置进行定位获取编辑mask,与此同时为了保证前后两张图关键特征的一致性,团队引入了image prompt adaption的方法IP-Adapter,最后团队使用IP-Adapter以及ControlNet,结合output image的canny map以及input image的image prompt feature,利用Image Inpainting对output image进行调整,从而获得比较有效的编辑数据。

图片

利用文本生成图片分支得到场景丰富的数据后,为了能向数据集中添加真实数据,团队从视频中提取高质量的关键帧作为编辑数据。具体来说,团队从视频分镜中提取相关性强且结构差异大两帧作为起始与末尾帧,并切分出一段新的分镜,利用多模态大模型对这段分镜的变化进行描述,最后团队以起始与末尾帧作为input image以及output image,以得到的描述作为instruction,这样就获得了需要的编辑数据。

再进一步,团队利用人工对生成数据进行recheck,从而进一步提升数据质量。

团队利用数据集对InstructPix2Pix模型进行finetune,同时为了保护非编辑区域实现更为精确的编辑,团队提出了post-edit策略。

图片

图片

最终可以看到,团队的方法可以很好地实现world-instructed image editing。

论文链接:

https://arxiv.org/abs/2405.14785

代码链接:

https://github.com/YangLing0818/EditWorld


返回网站首页

本文评论
谷歌pixel8a处理器8a手机配置曝光:搭载Tensor G3处理器 AI功能强大 谷歌Pixel
来源:中关村在线i36100cpu参数配置据传,谷歌即将推出其最新款手机Pixel 8a。这款手机搭载了高性能的Tensor G3处理器,并提供多种颜色选择,包括薄荷绿/陶瓷白/曜石黑/海岸蓝等。...
日期:05-02
iPhone 14 Plus开售既破发:掉价400多元 罕见被冷落「苹果13发布12会降价多少」
本周,iPhone 14系列中的最后一款机型iPhone 14 Plus正式发布,首批预约的用户在本周已经陆续拿到了手机,而尴尬的是iPhone 14 Plus首销的当天就破发了,渠道原价6999元的原价已经...
日期:10-27
昆明榴莲一斤跌破10元:榴莲批发区尤其繁忙_昆明榴莲价格
最近,云南昆明的榴莲大量上市,导致部分榴莲价格跌破每斤10元的低点。昆明的水果市场非常热闹,榴莲批发区尤其繁忙。最近两天,榴莲上市量大幅增加,价格平均每公斤下降了20元左右。...
日期:05-09
已有20万企业用户申请接入通义千问-阿里张勇
【】4月26日消息,在今日的2023阿里云合作伙伴大会上,阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团首席执行官张勇在发表演讲时透露,已有20万企业用户申请接入通义千问...
日期:10-01
gap服装价格「消息称服装零售巨头Gap裁员500人以降本增效」
4月26日消息,当地时间周二,据知情人士于透露,美国服装零售巨头Gap正裁减500余名员工,以削减成本、提高效率,同时试图恢复盈利。知情人士表示,Gap裁员的确切人数尚不清楚,但数字将超...
日期:04-26
生活最后一公里_“最后一公里”,花钱越来越多?
记者 刘小燕   来源:工人日报   近日,共享单车企业陆续上调用户骑行费。有专家指出,作为用户“最后一公里”的重要交通工具,一味地涨价恐怕会造成用户的流失,用户的体验始终...
日期:08-17
董事会和经营层均完成彻底交棒,于芝涛正式出任海信集团总裁
7 月 18 日消息,海信集团董事会今日发文宣布,于芝涛正式接任海信集团总裁职务。随着于芝涛身份的确定,海信集团董事会和经营层均完成彻底交棒。小米mix3怎么截屏苹果13粉色和远...
日期:09-20
挑战中端续航之王!真我GT Neo6 SE 5500mAh电池相当于友商5800mAh续航体验_真我gt neo 6g
快科技4月10日消息,真我徐起宣布了真我GT Neo6 SE的一系列重要特性,其中包括配备5500mAh超大电池以及8T LTPO超低功耗旗舰屏,这样的组合实现了相当于友商5800mAh的超级续航体验...
日期:04-10
ios开发图片「苹果开源图像新技术ml-mgie 可通过指令修改图片」
2月5日 消息:苹果开源了一种新的技术,名为多模态大语言模型引导的编辑(MGIE),这项技术能够帮助用户通过自然语言指令来修改图片,使得编辑图片更加简单和自然。MGIE采用多模态大型...
日期:02-05
贾跃亭还持有多少乐视股份「什么操作?贾跃亭因借款纠纷起诉乐视控股 其本人持股92%」
作为乐视集团的创始人,贾跃亭如今要起诉乐视控股,案由是借款合同纠纷,这也着实少见。不过对于频上热搜的乐视和贾跃亭来说,已算是日常操作”。11月1日,山西省高级人民法院发布开...
日期:11-12
华为Mate 60国行开售 12GB 1TB售价6999元「华为mate60pro最新消息」
华为Mate 60今日正式开启全款购买,售价5999元起。这款手机的12GB 1TB版也已上架,售价6999元。在设计上,华为Mate 60取消了3D深感摄像头,仅保留1300万像素超广角镜头。正面采用了...
日期:09-11
闪极 知乎「闪极科技将于8月28日举办“科幻照进现实”年度产品发布会」
摘要:数款电影《流浪地球2》独 家IP授权道具级充储电产品震撼亮相2023 年 8 月 28 日,闪极科技即将在深圳举办“科幻照进现实”年度产品发布会,届时,将有多款《流浪地球2》独 家...
日期:09-13
未来大模型将驱动一切硬件!阿里巴巴CEO吴泳铭:通义千问正加快追赶GPT-4
快科技3月10日消息,近日,阿里巴巴集团CEO吴泳铭发文表示,大模型开启全新的智能时代,引发人机交互、计算范式和认知协作三场革命,正在加快形成新质生产力、增强发展新动能。李诞和...
日期:03-11
腾讯三季度业绩「腾讯三季度收入1401亿元,净利润399亿元同比增1%_」
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:12-03
ace和一加8t「一加 Ace 2 Pro配置均衡功能全面 3000元价位的爆款」
来源:中关村在线dnf移动物品设置快捷键乱码创一鞋业休闲鞋男鞋一加 Ace 2 Pro于26日早上10点开启了新一轮售卖。这款手机配置均衡,功能全面,搭载了第二代骁龙 8 旗舰芯片,具...
日期:09-27
数字云南有限公司「我走访2000公里,找到了云南数智化成功的奥秘」
随着数字化和智能化浪潮的兴起,5G技术成为各行各业实现高质量发展的强大引擎。在云南,七彩山水之间,5G也正如一缕阳光透过云雾,照向一系列引人注目的项目,催化其数字化转型,焕发出...
日期:11-07
蚂蚁数字科技业务出海新进展,在菲律宾发布多款数字科技产品_蚂蚁数字科技有限公司
11月25日 消息:近日,蚂蚁集团数字科技业务在菲律宾马尼拉举办客户交流会,与会嘉宾包括菲律宾银行营销协会 BMAP、东南亚最大投资银行CIMB、菲律宾首都银行Metrobank等机构的产...
日期:11-26
华为 c8813q_华为c8813Q图片
华为 C8813Q是一款由华为公司推出的智能手机。首次发布于2013年,该手机是华为面向中低端用户推出的一款产品。这款手机的主要特点是高性价比和实用性,它的外观简洁,功能实用,容...
日期:05-30
谷歌将在明年初推出Go语言首个正式版本1.0(go语言 版本)
  谷歌两年前发布了Go工具及其开放资源,现在正计划未来几个月对Go语言进行完善,在明年年初推出首个正式版本Go 1.0,并将其推向Google App Engine。Go是一种计算机语言,其设计...
日期:07-24
vivo X100s明天正式上市:售价3999元_vivo x10价格
据vivo京东自营店发布的最新消息,备受期待的vivo X100s将于明天正式上市销售,售价为3999元。这款新机在性能、影像和续航方面表现出色,吸引了众多消费者的关注。rtx 3090上手空...
日期:05-17