您的位置:首页 > 互联网

画个框、输入文字,面包即刻出现:AI开始在3D场景无中生有了

发布时间:2024-01-25 18:07:52  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

现在,通过文本提示和一个2D 边界框,我们就能在3D 场景中生成对象。

看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输入文本在托盘上添加意大利面包,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。

房间的地板上看起来太空荡了,想加个凳子,只需在你中意的地方框一下,然后输入文本在地板上添加一个矮凳,一张凳子就出现了:

相同的操作方式,在圆桌上添加一个茶杯:

玩具旁边摆放一只手提包统统都可以:

我们可以从以上示例看出,新生成的目标可以插在场景中的任意位置,还能很好地与原场景进行融合。

上述研究来自苏黎世联邦理工学院和谷歌,在论文《InseRF: Text-Driven Generative Object Insertion in Neural3D Scenes》中,他们提出了一种名为 InseRF 的3D 场景重建方法。InseRF 能基于用户提供的文本描述和参考视点中的2D 边界框,在3D 场景中生成新对象。

  • 论文地址:https://arxiv.org/pdf/2401.05335.pdf

  • 项目地址:https://mohamad-shahbazi.github.io/inserf/

  • 项目主页:https://mohamad-shahbazi.github.io/inserf/

在与其他方法的比较中,对于要求在玩具旁边渲染出一个杯子,I-N2N 直接改变了玩具原来的模样, MV-Inpainting 给出的结果更加糟糕,只有 InseRF 符合要求。

从左到右分别是原场景、 I-N2N 方法、 MV-Inpainting 以及 InseRF

这项研究重点关注在3D 场景中插入生成对象(generative object insertion),这种方式在跨多个视图的同时还能保持一致,并且新生成的对象可以摆放在场景中的任意位置上。

一般来讲,使用2D 生成模型在3D 场景中插入生成对象是一项特别具有挑战性的任务,因为它需要在不同视点中实现3D 一致的对象生成和放置。一种简单的方法是使用3D 形状生成模型单独生成所需的对象,并使用3D 空间信息将它们插入场景中。

然而,这种方法需要3D 对象的准确位置、方向和比例。此外,与场景无关的对象生成可能会导致场景的样式和外观与插入对象之间的不匹配。

本文提出的 InseRF 很好地解决了上述问题,能够使用对象的文本描述和单视图2D 边界框作为空间指导,在3D 场景中进行场景感知生成和插入对象。

方法介绍

本文将3D 场景的 NeRF 重建、要插入目标对象的文本描述以及2D 边界框作为输入。输出结果会返回同一场景的 NeRF 重建,并且还包含在2D 边界框里生成的目标3D 对象。

值得注意的是,由于研究者还会用扩散模型先验来进行精确的2D 定位,InseRF 只需要一个粗略的边界框就可以了。

InseRF 由五个主要步骤组成:

1)基于文本提示和2D 边界框,在选定的场景参考视图中创建目标对象的2D 视图;

2) 根据生成的参考图像中的2D 视图重建3D 对象 NeRF;

3) 借助单目深度估计来估计场景中对象的3D 位置;

4) 将对象和场景 NeRF 融合成一个包含估计放置物体的单个场景;

5) 对融合的3D 表示应用细化步骤以进一步改进插入的对象。

编辑参考视图

编辑 pipeline:首先选择场景的一个渲染视图作为参考,并根据用户提供的文本提示和2D 边界框插入目标对象的2D 视图。参考视图用于提供参考外观和位置来为3D 插入奠定基础。

为了确保输入边界框中的局部2D 插入,本文选择掩码条件修复方法作为2D 生成模型。具体来说,他们选择 Imagen,这是一种强大的文本到图像扩散模型,并通过使用 RePaint(一种使用扩散模型进行掩码条件修复的方法)进一步使其适应掩码条件。

单视图对象重建

获得参考编辑视图后,本文提取边界框内生成对象的2D 视图并构建其3D 重建。本文建议利用最新的单视图对象重建范式,即使用3D 感知扩散模型。此类重建方法通常在大规模3D 形状数据集(例如 Objaverse )上进行训练,因此包含对3D 对象的几何形状和外观的强大先验。

本文使用最近提出的 SyncDreamer 进行对象重建,它在重建质量和效率之间提供了良好的权衡。

实验

该研究在 MipNeRF-360和 Instruct-NeRF2NeRF 数据集上进行了评估。

此外,该研究还将 InseRF 与基线方法进行了比较,包括 Instruct-NeRF2NeRF (I-N2N) 、 Multi-View Inpainting (MV-Inpainting) 。

为了评估 InseRF 生成插入对象的能力,该研究在图3中提供了将 InseRF 应用于不同3D 场景的可视化示例。如图所示,InseRF 可以在场景中插入3D 一致的对象。值得注意的是,InseRF 能够在不同表面上插入对象,这在缺乏精确3D 放置信息的情况下是一项具有挑战性的任务。

图4是与基线方法的比较。由结果可知,使用 I-N2N 会导致场景中的全局更改,并且这种改变是更改现有对象而不是创建新对象,例如 I-N2N 把4a 中的乐高卡车变成了一个马克杯,把4b 中厨房柜台上的物品变成了一个餐盘。

网易游戏13岁每天都可以玩吗


返回网站首页

本文评论
荣耀x40屏幕「荣耀X40 GT手机开售:1999起 144Hz高刷屏」
荣耀X40 GT手机在昨晚发布,这也是今年首款定位于游戏的助理机型,“荣耀X40 GT”新机采用骁龙888芯片平台,为了解决散热问题带来了强大的13层立体式散热结构,配合144Hz高刷电竞屏...
日期:10-16
诺基亚将裁员1.4万人以削减成本 或5G布局失利所导致
【CNMO新闻】10月19日,CNMO注意到,据路透社报道,诺基亚宣布调整营运策略,目标是到2026年底总成本基础较2023年降低8亿至12亿欧元。声明显示,诺基亚目前有86000名员工,该计划预计将...
日期:10-19
海云数据上市了吗_海云数据凭实力再登榜单 这才是硬实力!
  近期,中国科学院、科学出版社主办的《互联网周刊》&e Net 研究院发布“企业服务案例(To B)TOP100“榜单,海云数据凭借贵州省政府打造的“智政”平台成功入选,排名靠前。同...
日期:07-16
PayPal宣布裁员2000人 占员工总数的7%「paypal规模」
2月1日 消息:PayPal 周二表示,将裁员约7% 的员工,即约2,000名全职员工,原因是这家数字支付公司正在应对所谓的“充满挑战的宏观经济环境”。PayPal 表示将在数周内进行裁员,其中...
日期:02-01
毫末智行coo「曝毫末智行即将发布新品无人配送车 价格会更低」
【网易科技5月15日报道】有消息称毫末智行即将发布一款新型无人配送车,目前已进入最终上市阶段。据消息人士透露,这次推出的产品主打更高性价比,并聚焦末端物流自动配送,“价格...
日期:05-15
金山称WPS办公软件月活跃用户超2000万(金山wps平均工资)
  9月21日消息,金山办公软件正式对外发布了WPS Office 2012办公软件。金山办公软件副总裁章庆元表示,目前金山WPS Office已经积累超过1亿用户,月活跃用户数量超过2000万,每日...
日期:07-23
京东京造百度百科「京东京造携手什么值得买打造618好物清单」
【】6月1日消息,京东自有品牌京东京造联合科学消费指南“什么值得买”发起618京东京造超值的主题活动,旨在为消费者提供一站式“省心省钱”的消费指南,让来自京东京造的低价品...
日期:09-26
Note 13标准版正式发布 1099元起售 Redmi_one note2013
来源:中关村在线小米手机618优惠程序员的门槛这么低了吗近日,Redmi Note 13标准版正式发布,售价公布如下:6GB+128GB售价为1099元,8GB+128GB售价为1199元,8GB+256GB售价为1399元,12G...
日期:09-22
一加Ace 3部分规格曝光:骁龙8 Gen2处理器 金属中框_一加8与ace2
据博主@数码闲聊站今日透露,一加 Ace 3的核心升级点包括索尼 IMX709传感器和支持2倍小长焦。该款新机采用金属中框,配备5500mAh电池和100W有线快充。处理器升级至骁龙8 Gen...
日期:09-27
华为HarmonyOS 3首批正式版升级定了:Mate 40等机型10月更新「华为HarmonyOS 升级」
此前,华为发布了新的HarmonyOS 3操作系统,并开启了公测尝鲜。今天,在历时一个月左右的公测之后,HarmonyOS官方正式发布了HarmonyOS 3的首批公测版本升级名单,并宣布将在10月下旬...
日期:10-12
新能源充电电费「新能源刺客:充电费暴涨,油车又香了?」
东风风光580竞争车型作者 |福里斯特 编辑|陆一鸣 题图|《狂飙》7月底,随着国内第15轮油价调整正式到来,每吨汽、柴油价格不出意料地上涨了200元,全国各大城市的加油站前,又挤满...
日期:08-01
淄博最火的烧烤「淄博烧烤店开门一分钟坐满大学生:组团去山东撸串火出圈」
开门1分钟后就坐满的饭店是什么体验?3月5日一段拍摄于山东淄博的视频引发讨论,只见烧烤店老板娘刚打开门,学生模样的吃货们便蜂拥而停止,等不及老板娘排号,都已经纷纷落座。认证...
日期:03-07
腾讯官方:打击账号买卖净化微信生态_微信账号销毁
  在手机号逐渐实行实名制,垃圾信息,广告电话得到一定程度的遏制后,微信账号的买卖日渐成为黑产所瞄准的下一个目标。伴随着移动互联网的普及,微信已经成为每个普通人必不可...
日期:05-20
限时秒杀,华为云弹性云服务器低至2.5折起「华为云弹性公网ip怎么使用」
通信世界网消息(CWW)如今,通过数字化转型实现创新发展,已成为各类企业尤其是中小企业的共识。上云,是数字化转型的第一步。6月1日-30日期间,华为云推出618营销季活动,提供多款热门...
日期:06-28
满分机能,助力超感发挥,联想将携拯救者系列全力保障亚运赛事
(原标题:满分机能,助力超感发挥,联想将携拯救者系列全力保障亚运赛事) 9月23日,亚运会在杭州拉开帷幕,年轻人喜爱的电子竞技也正...
日期:10-11
华为p60pro概念机「6款配色-已交付工厂开始生产 华为P60系列渲染图曝光」
按照往年节奏,华为很可能在今年第一季度推出新一代P系列旗舰——华为P60系列,将至少包含华为P60E、华为P60和P60 Pro三款机型,而随着预计的发布时间的日益临近,外界关于该机的爆...
日期:09-20
中国铁塔:每天为近百万外卖和快递小哥提供换电充电服务「中国铁塔充电收费标准」
快科技6月4日消息,工信部主办的第31届中国国际信息通信展览会今天在北京开幕。一台旧手机应该值多少钱豌豆荚 王俊煜据了解,本届展会以打通信息大动脉,共创数智新时代”为主题,...
日期:06-04
36氪总编辑李洋:商业文明进步诞生于窘迫  新风向焦点公司让我们看到未来
  3月19日,36氪“做风中的强者”——2019WISE风向大会在北京望京凯悦酒店举行,活动邀请了知名经济学家、头部投资人代表以及明星创业者,共同分享、预判2019年最具发展潜力的...
日期:01-27
分析称苹果iPhone才正要开始冲击企业市场_苹果公司快速发展的原因
  1月27日消息,据台湾媒体报道,德意志银行持续在苹果的iPhone手机上测试电子邮件,该银行的分析师Chris Whitmore在其研究报告中提到了测试Good科技公司的企业邮件系统经验,并...
日期:07-26
小米13mpcamera「小米13 Ultra要来了!雷军晒多台徕卡相机」
小米将于4月发布旗舰手机小米13 Ultra。CEO雷军在微博晒出多台徕卡相机和老的胶片相机,这被认为是新机的预热信号。小米13 Ultra将采用徕卡四摄组合,其中包括1英寸IMX989和三...
日期:04-03