您的位置:首页 > 互联网

LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命

发布时间:2023-10-26 20:37:54  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:润 好困,授权转载发布。

【新智元导读】最近,来自澳国立、牛津和智源的研究人员提出了一个由LLM驱动,用文字提示就能生成复杂3D场景的智能体框架。无所不能的大模型真的要开始创造3D世界了吗?

继火爆全网的AI文生图,文生视频之后,文生3D场景的技术也来了!

‍只要不到30个字的提示词,瞬间就能生成这样的3D场景。

场景效果和文字的要求几乎分毫不差——平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。

烈日照耀在无垠的沙漠之上,倔强生长的植物投下了明显的阴影。大风把小沙丘雕刻成一片金色的土地。

而且针对生成的场景,还支持对不同的元素进行连续地修改和编辑!

网友看到效果之后惊呼,我一辈子就在等这一刻了!

研究团队计划在论文被接受后就在Github上公布项目的代码,但是在代码还未公布之时,这个项目就已经获得141颗星!

这个项目是由澳国立、牛津和智源研究院的科研人员开发的3D-GPT系统,它可以简单地根据用户提供的文本描述生成各种各样的3D模型和场景。

项目地址:https://chuny1.github.io/3DGPT/3dgpt.html

和文生图依赖的独立模型不同,3D-GPT依然还是利用了大型语言模型(LLM)的多模态和推理能力,将3D建模任务分解成多个子任务,由不同的代理完成,包括任务调度代理、概念化代理和建模代理。

研究人员表示,3D-GPT 将LLM定位为熟练的问题解决者,将程序性3D建模任务分解为可访问的部分,并为每个任务指定合适的代理。

而且整套系统无需任何训练,无需训练即可完成从文本到参数提取再到3D建模的过程。

具体来说,任务调度代理负责根据指令选择适当的程序生成函数。概念化代理对文本描述进行推理,补充缺失的细节。

建模代理推断函数参数,生成Python代码,通过API控制3D建模软件Blender来进行建模。

这套系统与Blender无缝集成,支持物体变形、材质调整、网格编辑、物理模拟等多种操作。

而且3D GPT框架可以增强用户提供的简短场景描述,使之变得更加详细,更加符合上下文。同时整合了程序生成方法,从丰富的文本中提取参数控制3D建模软件。

而且因为LLM能够提供优秀的语意理解和上下文能力,使得3D GPT能够生成各种各样的3D资产,而且支持连续地,有针对性地编辑和修改能力。

3D-GPT可以进行精细的对象控制,包括形状、曲线和细节的捕捉,从而产生细节丰富的建模。同时也可以操控大场景的生成。

而且3D GPT支持连续的指令输入,可以进行场景的编辑和修改。系统能够记住之前的修改,使新指令与场景上下文相连结,让使用者可以对已经生成的场景进行持续的编辑和修改。

而且,3D-GPT还支持通过自然语言针对某一项单独元素和功能的持续编辑,例如下图表明,用户可以通过变换输入的要求,单独针对天气效果进行修改。

3D-GPT

任务定义

整体目标是基于一系列自然语言指令来生成3D内容。

其中,初始指令L0充当了对3D场景的全面描述,比如“一个多雾的春天早晨,露水亲吻的花朵点缀在被新发芽的树木环绕的郁郁葱葱的草地上”。

后续的指令用于修改现有的场景,例如指令如“将白色花朵变为黄色花朵”或“将场景转换为冬季环境”。

为了完成这一目标,研究人员引入了一个名为3D-GPT的框架,它使大型语言模型(LLM)能够充当解决问题的代理。

模型准备

研究人员指出,让LLM直接创建每一个3D内容的元素面临重大挑战。由于缺乏专门的预训练数据,LLM在熟练的3D建模方面可能存在困难,因此,它们可能难以准确判断基于给定指令应该修改哪些元素以及如何修改它们。

为了应对这个问题,在研究人员的框架中,他们利用之前研究中的一个基于Python-Blender的过程生成器Infinigen,它配备了丰富的生成函数库。

为了使LLMs能够熟练地运用Infinigen,研究人员为每一个函数提供关键提示。这些提示包括函数文档,容易理解的代码,所需信息,以及用法示例。

通过为LLM提供这些资源,研究人员使它们能够发挥其在规划、推理和工具利用方面的核心能力。因此,LLMs能够有效地利用Infinigen进行基于语言指令的3D生成,这一过程是无缝和高效的。

索尼电视ces

用于3D推理、规划和工具使用的多代理系统

在工具准备完成后,3D-GPT采用一个多代理系统来处理过程式3D建模任务。

该系统包含三个核心代理:任务调度代理、概念化代理和建模代理,如下图1所示。

它们共同将过程式3D建模任务分解为可管理的部分,每个代理专注于不同方面:3D推理、规划和工具使用。

任务调度代理在规划过程中起到关键作用。它利用用户指令查询函数文档,并随后选择必要的函数进行执行。

一旦选择了函数,概念化代理就会通过推理来丰富用户提供的文本描述。

在此基础上,建模代理推断出每个选定函数的参数,并生成Python代码脚本以调用Blender的API,从而促进相应3D内容的创建。此外,还可以使用Blender的渲染功能来生成图像。

任务调度代理用于规划

任务调度代理掌握了所有可用函数F的全面信息,能够高效地识别每个指令输入所需的函数。例如,当出现“将场景转换为冬季环境”的指令时,它会精确地找到像add_snow_layer()和update_trees()这样的函数。

任务调度代理的这一关键角色有助于在概念化代理和建模代理之间进行高效的任务协调。

如果没有它,概念化和建模代理必须为每个给定指令分析所有提供的函数F,这不仅增加了这些代理的工作量,还延长了处理时间,并可能导致意外出现的修改。

LLM系统、用户和任务调度代理之间的通信流程如下:

概念化代理用于推理

描述可能没有明确提供用于建模所需的详细外观描述。例如,考虑描述:“一个多雾的春天早晨,露水亲吻的花朵点缀在被新发芽的树木环绕的郁郁葱葱的草地上。”

当使用需要如树枝长度、树大小和叶子类型这样的参数的树建模函数时,很明显,这些具体细节并没有直接在给定文本中说明。

当指示建模代理直接推断参数时,它往往会提供简单的解决方案,比如从参数文档中使用默认或合理的值,或者从提示示例中复制值。这降低了生成的多样性并参数推断的过程更加复杂了。

三星oled产能

建模代理可以使用工具

在概念化之后,3D建模处理目标是将详细的人类语言转换为机器可理解的语言。

Blender渲染

建模代理最终提供了带有推断参数的Python函数调用,这些参数用于Blender节点控制和渲染,从而生成最终的3D网格和RGB结果。

生成效果编辑和修改实验

研究人员的实验首先通过展示3D-GPT在一致生成与用户指令对应的结果方面的高效性来开始,涵盖了涉及大型场景和单个对象的各种情境。

随后,研究人员深入探讨了特定实例,以说明研究人员的代理如何有效地理解工具功能、获取必要的知识,并将其用于精确控制。为了深化研究人员的理解,研究人员进行了消融研究,系统地检查了研究人员多代理系统中每个代理的贡献。

3D建模

大型场景生成

研究人员调查了3D-GPT基于场景描述控制建模工具的能力。

为了进行这个实验,研究人员使用ChatGPT生成了100个场景描述,提示如下:“你是一名优秀的作家,请为我提供10个不同的自然场景描述。”

研究人员收集了对这一提示的10次回应以形成他们的数据集。在下图2中,研究人员展示了3D-GPT的多视图渲染结果。

结果表明,研究人员的方法能够生成与提供的文本描述大致一致的大型3D场景,并展示了显著的多样性。

值得注意的是,所有3D成果都是直接使用Blender渲染的,确保所有网格都是真实的,从而使研究人员的方法能够实现绝对的3D一致性,并生成真实的光线追踪渲染结果。

单一类别的细节控制

除了从简洁描述中生成大型场景外,研究人员还评估了3D-GPT在建模对象方面的能力。研究人员评估了诸如曲线建模、形状控制和对对象外观深入理解等关键因素。

为此,研究人员展现了细粒度对象控制的结果。这包括从输入文本描述中派生的细微方面,如对象曲线、关键外观特征和颜色。

研究人员使用随机提示来指导GPT生成各种现实世界中的花朵类型。如图下3所示,研究人员的方法熟练地为每种花朵类型进行了建模,忠实地捕捉了它们不同的外观。

这项研究强调了3D-GPT在实现精确对象建模和细粒度属性控制方面的潜力。

子序列指令编辑

iphone 14 pro美版有锁

研究人员测试了3D-GPT在有效的人-代理通信和任务操纵方面的能力。

在下图4中,研究人员观察到研究人员的方法能够理解子序列指令并做出准确的场景修改决策。

值得注意的是,与现有的文本到3D方法不同,3D-GPT保留了所有先前修改的记忆,从而有助于将新指令与场景的上下文连接起来。

此外,研究人员的方法消除了对可控编辑的额外网络的需要。这项研究强调了3D-GPT在熟练处理复杂子序列指令用于3D建模方面的效率和多功能性。

单一函数控制

为了评估3D-GPT在工具使用方面的有效性,研究人员展示了一个说明性示例,突出了研究人员的方法在控制单一函数和推断参数方面的能力。

下图5举例说明了3D-GPT基于输入文本描述来建模天空外观的能力。

负责生成天空纹理的函数并不直接将颜色信息与天空外观相关联。相反,它依赖于Nishita天空建模方法,该方法需要对现实世界的天空和天气状况有深刻的理解,并考虑输入参数。

研究人员的方法熟练地从文本输入中提取关键信息,并理解每个参数如何影响最终的天空外观,如图5(c)和(d)所示。这些结果表明,研究人员的方法可以有效地使用单一函数以及推断相应的参数。


返回网站首页

本文评论
河南省加强数字政府建设:打造“一朵云”“一张网”“一道墙”
2023/5/23 09:49 河南省加强数字政府建设:打造“一朵云”“一张网”“一道墙”  九九 C114讯 5月23日消息(九九)河南省政府日前印发《河南省加强数字政府建设实施方案(2023...
日期:05-25
新的一年情人节,婚恋软件帮助更多人脱单了吗?_高端婚恋软件
声明:本文来自微信公众号“雷科技”(ID:leitech),作者:雷科技互联网组,授权转载发布。不管你是否认可情人节概念,是否会在这天与自己的那个ta相聚,每个成年人都会或多或少地思考自...
日期:02-15
网宿科技入选“2022年上海市新型数据中心创新发展案例”
【】3月20日消息,据上海市通信学会微信公众号消息,上海市通信学会正式公布“2022 年上海市新型数据中心创新发展案例名单”,网宿科技嘉定云计算数据中心获评“上海市新型数据...
日期:10-06
钱客多亮相2019高交会展现刷脸支付新科技(钱客多刷脸支付怎么样)
  以“共建活力湾区,携手开放创新”为主题的第二十一届中国国际高新技术成果交易会13日在深圳开幕,3300多家海内外展商、逾万个项目参展,100多个国家和地区的客商、投资商和...
日期:04-21
微信大改版!“momo大军”登陆公众号评论区,视频号挂链规则收紧
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:松露 小八,授权转载发布。微信又有了新动作。两个多月前,新榜曾发文《天降10万+?“看一看”能重新盘活公众号流量吗》,讨论微...
日期:09-06
比亚迪拟500万扩建电池厂!相关负责人:是给苹果供货_比亚迪新建电池厂
10月11日消息,10月9日上海企事业单位环境信息公开平台网站显示,为满足市场需求和公司自身的发展,比亚迪拟投资500万元建设上海比亚迪有限公司扩建项目。曼谷机器人大厦华为mate...
日期:10-13
扛不住了?iPhone15系列卖不动成导火索,库克透露:考虑离开苹果_苹果15出来了吗
都知道,在华为Mate60系列的冲击下,iPhone15系列成为了中国手机市场的“小丑”。酷开电视k50j价格在不久前,库克还高调且开心的宣布,中国市场首次超越美国市场,成为全球iPhone出货...
日期:12-27
oppo find折叠屏「OPPO Find N3 Flip折叠手机预注册页面上线,限量10%折扣券」
近日,OPPO Find N3 Flip折叠手机的预注册页面在网上上线,用户可以通过此页面提前获取限量10%的折扣券。据此前报道,该款手机的国行版于9月8日正式开售,其中有月光缪斯、薄雾玫瑰...
日期:10-01
青萌膳食纤维「膳食纤维知多少?青汁大揭秘!」
(原标题:膳食纤维知多少?青汁大揭秘!) 三星Galaxy S23 Ultra配色介绍 都说控制尺码要多吃膳食纤维,你们知道这是为什么吗? 事实上,膳...
日期:09-11
谷歌下架Android 和 iOS 上的 AI Test Kitchen 应用「苹果谷歌下架」
8月1日 消息:日前,谷歌在 Android 和 iOS 上下架了 AI Test Kitchen 应用程序,这个应用程序曾经是公众测试谷歌人工智能工具的地方,但现在已经无法在应用商店上找到。谷歌翻译...
日期:08-01
美国队长4开拍 北美定档2024年5月3日「美国队长4什么时候上线」
据报道,漫威新片《美国队长4:新世界秩序》已经开拍,首曝片场路透,安东尼·麦基将回归饰演“美队”萨姆·威尔逊。该片已定档2024年5月3日北美上映。剑网三新坐骑此外,据悉“猎鹰...
日期:03-24
老人开摩托车被车撞了应该怎么解决「老人故意推倒摩托车案3月24日开庭:车主起诉继承人」
去年6月份,上海发生了一起老人故意推到摩托车事件。车主陈先生称,在摩托车没有遮挡任何出入口和设施的情况下,被一位老人在小区楼下故意推到,车损达16704元。事后,老人态度强硬拒...
日期:03-24
登录多平台!暴雪《暗黑破坏神4》中文宣传片发布:3月25日公测_2020 暗黑破坏神4
今天,暴雪《暗黑破坏神4》发布了全新的中文预告片,展示了暗黑大教堂的内景和壁画。《暗黑破坏神4》是一款由暴雪制作发行的动作类角色扮演游戏,同时也是暗黑破坏神系列的完美延...
日期:03-07
考驾照一定要花钱挨骂吗?00后怒了要整顿驾校:我们要尊重「考驾照需要花钱吗」
谁说去驾校就要挨骂的,你经历过吗?近日,多位在暑假学车的大学生回忆,当想起教练的毒舌”,大多数人心有余悸。一些年轻人发问:考驾照一定要花钱挨骂吗?”智能配送机器人的研究分析以...
日期:08-29
打造完美制作效果,虚拟动点·虚拟可视化拍摄开启影视制作新时代
  虚拟拍摄一直是影视拍摄业,尤其科幻、奇幻类电影电视以及直播节目中,广泛应用的拍摄方式。   目前主流的绿幕抠像合成技术,可以满足大多数的影视和演播室拍摄需求,...
日期:07-14
年销279万辆 新能源同比增长51%!吉利控股集团2023年度报告发布_吉利新能源规划
快科技1月12日消息,我们从吉利控股集团公众号获悉,2023年汽车总销量约279万辆,同比增长20%。其中,新能源汽车销量约98万辆,同比增长51%,渗透率达35%。吉利汽车集团2023 年全年的总...
日期:01-13
挖掘GPT的隐藏实力就靠它了
声明:本文来自于微信公众号 量子位 (ID:QbitAI),克雷西 发自 凹非寺 ,授权转载发布。这个GitHub新项目,能让ChatGPT完成复杂任务,GPT3.5和GPT-4都支持。它通过将问题拆解,并调用外...
日期:05-10
美媒:资金涌入、技术改进,电动重卡行业明年将迎来大爆发「重卡电动化推进」
12月24日消息,目前电动重型卡车领域汇聚了许多有利因素,比如可用资本更多,技术持续改进,该行业有望在2023年迎来大爆发。在11月份举行的联合国气候大会上,美国能源部长詹妮弗·格...
日期:12-24
ios15价格「涨价可能抑制需求 iPhone15系列需求或低于14系列」
苹果分析师郭明錤预测,iPhone15 系列的需求将低于今年的iPhone14 系列。郭明錤表示,需求下降可能会给苹果供应商在 2023 年下半年的收入增长带来挑战。即将推出的iPhone系列包...
日期:09-18
腾讯:2030 年将实现全面碳中和(2020年实现碳中和)
  在 2021 年初启动碳中和规划后,腾讯通过官方公众号宣布今天开始“净零行动”,承诺不晚于 2030 年实现自身运营及供应链的全面碳中和。同时,不晚于 2030 年,实现 100% 绿色...
日期:07-17