您的位置:首页 > 互联网

Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性idea

发布时间:2023-11-29 16:39:47  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

在计算机图形学中,三角形网格是3D 几何物体的主要表现形式,也是游戏、电影和 VR 界面中主要使用的3D 资产表示方法。业界通常基于三角形网格来模拟复杂物体的表面,如建筑、车辆、动物,常见的几何变换、几何检测、渲染着色等动作,也需要基于三角形网格进行。

与点云或体素等其他3D 形状表示法相比,三角形网格提供了更连贯的表面表示法:更可控、更易操作、更紧凑,可直接用于现代渲染流水线,以更少的基元获得更高的视觉质量。

此前,已有研究者尝试过使用体素、点云和神经场等表示方法生成3D 模型,这些表示也需要通过后处理转换成网格以在下游应用中使用,例如使用 Marching Cubes 算法进行 iso-surfacing 处理。

遗憾的是,这样做的结果是网格密度过高、网格划分过细,经常出现过度平滑和等值曲面化带来的凹凸不平的错误,如下图所示:

相比之下,3D 建模专业人员建模的3D 网格在表示上更加紧凑,同时以更少的三角形保持了清晰的细节。

一直以来,很多研究者都希望解决自动生成三角形网格的任务,以进一步简化制作3D 资产的流程。

在最近的一篇论文中,研究者提出了新的解决方案:MeshGPT,将网格表示直接生成为一组三角形。

论文链接:https://nihalsid.github.io/mesh-gpt/static/MeshGPT.pdf

受语言生成模型 Transformer 的启发,他们采用了一种直接序列生成方法,将三角形网格合成为三角形序列。

按照文本生成的范式,研究者首先学习了三角形词汇,三角形被编码为潜在量化嵌入。为了鼓励学习到的三角形嵌入保持局部几何和拓扑特征,研究者采用了图卷积编码器。然后,这些三角形嵌入由 ResNet 解码器解码,该解码器将其处理表示三角形的 token 序列,生成三角形的顶点坐标。最终,研究者在所学词汇的基础上训练基于 GPT 的架构,从而自动生成代表网格的三角形序列,并获得了边缘清晰、高保真度的优势。

在 ShapeNet 数据集上进行的多个类别的实验表明,与现有技术相比,MeshGPT 显著提高了生成3D 网格的质量,形状覆盖率平均提高了9%,FID 分数提高了30个点。

在社交媒体平台上,MeshGPT 也引发了热议:

有人说:这才是真正革命性的 idea。

一位网友指出,该方法的亮点在于克服了其他3D 建模方法的最大障碍,即编辑能力。

有人大胆预测,或许每一个自上世纪90年代以来尚未解决的难题,都可以从 Transformer 中得到启发:

也有从事3D / 电影制作相关行业的用户对自己的职业生涯表示担忧:

不过,也有人指出,从论文给出的生成示例来看,这一方法还未达到大规模落地的阶段,一位专业建模人员完全可以在5分钟内制作出这些网格。

这位评论者表示,下一步可能是由 LLM 控制3D 种子的生成,并将图像模型添加到架构的自回归部分。走到这一步后,游戏等场景的3D 资产制作才能实现大规模的自动化。

接下来,就让我们看看 MeshGPT 这篇论文的研究细节。

买苹果11还是华为mate40e

方法概述

受大语言模型进步的启发,研究者开发了一种基于序列的方法,将三角形网格作为三角形序列进行自回归生成。这种方法能生成干净、连贯和紧凑的网格,具有边缘锐利和高保真的特点。

研究者首先从大量的3D 物体网格中学习几何词汇的嵌入,从而能够对三角形进行编码和解码。然后,根据学习到的嵌入词库,以自回归下索引预测的方式训练用于网格生成的 Transformer。

为了学习三角形词汇,研究者采用了图形卷积编码器,对网格的三角形及其邻域进行操作,以提取丰富的几何特征,捕捉3D 形状的复杂细节。这些特征通过残差量化被量化为 codebook 中的 Embedding,从而有效减少了网格表示的序列长度。这些内嵌信息在排序后,在重建损失的指导下,由一维 ResNet 进行解码。这一阶段为 Transformer 的后续训练奠定了基础。

然后,研究者利用这些量化的几何嵌入,训练出一个 GPT 类型的纯解码器 transformer。给定从网格三角形中提取的几何嵌入序列,训练 transformer 来预测序列中下一个嵌入的 codebook 索引。

训练完成后,transformer 可以自回归采样,以预测嵌入序列,然后对这些嵌入进行解码,生成新颖多样的网格结构,显示出与人类绘制的网格类似的高效、不规则三角形。

MeshGPT 采用图卷积编码器处理网格面,利用几何邻域信息捕捉表征3D 形状复杂细节的强特征,然后利用残差量化方法将这些特征量化成 codebook 嵌入。与简单的向量量化相比,这种方法能确保更好的重建质量。在重建损失的指导下,MeshGPT 通过 ResNet 对量化后的嵌入进行排序和解码。

该研究使用 Transformer 从预先学习的 codebook 词汇中生成网格序列作为 token 索引。在训练过程中,图形编码器会从网格面提取特征,并将其量化为一组面嵌入。这些嵌入会被扁平化,用开始和结束 token 进行标记,然后送入上述 GPT 类型的 transformer。该解码器通过交叉熵损失进行优化,预测每个嵌入的后续 codebook 索引。

实验结果

该研究将 MeshGPT 与常见的网格生成方法进行了比较实验,包括:

  • Polygen,通过首先生成顶点,然后生成以顶点为条件的面来生成多边形网格;

  • BSPNet,通过凸分解来表征网格;

  • AtlasNet,将3D 网格表征为多个2D 平面的变形。

此外,该研究还将 MeshGPT 与基于神经场的 SOTA 方法 GET3D 进行了比较。

如图6、图7和表1所示,在全部的4个类别中,MeshGPT 都优于基线方法。MeshGPT 可以生成尖锐、紧凑的网格,并具有较精细的几何细节。

具体来说,与 Polygen 相比,MeshGPT 能生成具有更复杂细节的形状,并且 Polygen 在推理过程中更容易积累错误;AtlasNet 经常出现折叠瑕疵(folding artifact),导致多样性和形状质量较低;BSPNet 使用平面的 BSP 树往往会产生具有不寻常三角测量模式的块状形状;GET3D 可生成良好的高层次形状结构,但三角形过多,且平面不完美。

如表2所示,该研究还让用户对 MeshGPT 生成网格的质量进行了评估,在形状和三角测量质量方面,MeshGPT 明显优于 AtlasNet、Polygen 和 BSPNet。与 GET3D 相比,大多数用户更喜欢 MeshGPT 生成的形状质量(68%)和三角测量质量(73%)。

形状新颖性。如下图8所示,MeshGPT 能生成超出训练数据集的新奇形状,确保模型不仅仅是检索现有形状。

形状补全。如下图9所示,MeshGPT 还可以基于给定的局部形状推断出多种可能的补全,生成多种形状假设。


返回网站首页

本文评论
rog游戏手机好吗「游戏手机标杆之作!没想到 ROG7这么火爆」
7月28日,ChinaJoy 2023大展在上海新国际博览中心正式开幕,新产品新技术令人眼花缭乱,现场人山人海、观众如织。在这个移动时代,手游成为一种大众化的娱乐方式,尤其是专门设计的游...
日期:07-29
ai人才年薪2000万,华创资本创始合伙人熊伟铭发表看法「华创 熊伟铭」
大模型人才年薪2000万,熊伟铭表示这是近水楼台先得月。对拥有大型模型专业知识的人工智能人才的需求正将薪酬推高至前所未有的水平,使初创公司难以竞争。美国在大型人工智能模...
日期:05-20
苹果iPad新款-400 入手仅2099_苹果ipad2020新款官网价
新款的iPad刚发布不久就开始了促销,近期有立减400元的活动,此前京东原价为2499元,参加满2000-400优惠券,到手价2099元,而且还能分期。人工智能引发的伦理问题及应对措施大众suv纯...
日期:11-15
水果摊无人看守30箱香蕉被抢光 网友直呼太没素质:没吃过香蕉吗
5月20日,江苏镇江一水果摊无人看管,30箱香蕉被哄抢一空。拍摄者唐先生称,刚开始还以为水果摊生意太火爆所以人多,后面没看到老板才感觉事情不太对劲。问过老板才知道他当时人不...
日期:05-22
Runway Gen-2推出新动画功能 并启动创作合作计划「runway change」
9月1日 消息:作为目前最最先进的文本和图像转视频模型Runway ML Gen-2近日推出了新的动画功能。苹果手表会爆炸吗据悉,Gen-2的一个特征是静止图像动画,它可以自动扩展图像生成...
日期:09-01
报复性消费or报复性存钱?这届618年轻消费者嗨点到底在哪里_突然报复性消费
  据数据显示,2020年第一季度人民币存款共增加8.07万亿元左右,也就是说,一季度的91天里,平均每天超过700亿存款涌向银行!   看来,预计的“报复性消费”不一定存在,倒是越来越...
日期:07-14
王炸!九号跨界奥地利红牛:“九牛”之力,释放加倍硬核能量
  5月6日,奥地利红牛2021国际三人街头篮球赛在武汉的湖北工业大学火热开赛。作为赛事赞助商的九号公司“高能”登场。两者虽然是首次合作,却迸发出超乎想象的惊人能量—...
日期:06-12
美国这环境?男子从苹果店购买300部iPhone 13 出门就遭抢劫_美国苹果店被洗劫
美国这环境感受下,一男子从苹果第五大道零售店买完iPhone,出门就被抢劫?小米十周年 雷军公开演讲黑莓全键盘手机的经典有哪几个据纽约1010Wins电台报道,一名不愿透露姓名的27岁...
日期:12-02
金士顿无敌了!拿下2022年全渠道SSD市场占有率第一「金士顿 ssd」
3月22日消息,快科技获悉,金士顿今天宣布以全渠道固态硬盘市场占有率第一的排名,为2022年画上圆满的句号。据了解,研究分析公司集邦咨询(TRENDFOCUS)的市场份额数据显示,金士顿成为...
日期:03-24
丢掉 LangChain、像 Docker一样编排大模型应用程序:这支十余人的年轻创业团队如何在2个月做出一个LLMOps平台?
声明:本文来自于微信公众号 InfoQ(ID:infoqchina),作者:凌敏,授权转载发布。大模型浪潮正在重构千行百业。可以预见的是,随着技术的不断进步以及应用场景的不断扩展,基于大模型的...
日期:11-13
爷爷怕孙子孙媳不来住提前装WiFi 网友被打动:少玩手机多陪伴_奶奶家里装WiFi了你回来玩吧
你家Wi-Fi密码多少”,相信在家里招待过客人的朋友,或多或少都听到过这样的问句。由此不难发现,当代人尤其是青年朋友,对网络生活的依赖。据新华社,日前在河南商丘,一位太爷爷因为...
日期:12-03
中国智能电视盒子销量榜:小米第三 腾讯太猛了_电视盒子销量排行
4月4日晚,洛图科技(RUNTO)公布了最新的《中国智能盒子线上零售市场月度追踪》。报告显示:2023年2月,中国智能盒子线上零售量为15.2万台,同比下降33.7%,环比下降40.6%;零售额为0.3亿...
日期:04-05
美风投公司宣布向AI投资超10亿美元「美风投公司宣布向ai投资超10亿美元是真的吗」
7月13日 消息:据外媒报道,Sapphire Ventures(美国的一家风险投资机构)的总裁Jai Das在本周二的一次会议上宣布,该公司计划向人工智能初创公司投资超过10亿美元,以加速该技术在全...
日期:07-13
美国为了打压中国芯片业竟然禁止卖金刚石 这太荒唐了
运营商财经 康钊/文iphone6边框材质小鹏电动汽车P7诺基亚手机新款上市三星手机国内市场AGM G1 pro2020后置三摄手机苹果维修政策道歉近日,美国相关部门宣布对中国禁止出售四...
日期:08-16
双11惊喜活动「视频号双11购物狂欢节启动招商 活动玩法及奖励政策公布」
10月12日 消息:随着一年一度电商平台双11大促活动的到来,微信视频号日前也推出了“超品日-11·11购物狂欢节”,并正式对外招商。据悉,今年视频号双11的活动时间从10月31日20点...
日期:10-13
孙燕姿第一首成名曲「AI出来后第一个失业的是孙燕姿?歌迷齐呼:等你的演唱会」
快科技5月13日消息,这两天,#AI出来后第一个失业的是孙燕姿#的话题被推上了热搜。京东商城永辉超市iphone14pro搭载什么微软会裁员吗此事源于AI孙燕姿”的走红。据了解,这位一夜...
日期:05-13
全球最大“iPhone” 1.83米高 能正常用「世界上最大的iphone」
海外某博主,打造出了一个“Pro Max Max Max”的超大号iPhone,1.83米的高度,更难得的是这款iPhone竟然能正常使用。这款手机高度超过6英尺(约1.83米),Beem从百思买平台购买了一台超...
日期:06-24
研究人员对AI工具进行评估 以确定哪些药物更有可能产生副作用_人工智能在药物研发中可以进行新药安全有效性预测
根据一项新研究,人工智能可能会帮助医生确定个人是否有可能从广泛使用的抗抑郁药、抗组胺药和膀胱药物中产生不良反应。在埃克塞特大学和肯特和梅德韦国家医疗服务系统和社会...
日期:10-05
科大讯飞新产品「科大讯飞回应讯飞星火APP被下架:正在和平台沟通」
8月1日 消息:针对“讯飞星火APP被下架”一事,科大讯飞方面回应称,目前讯飞星火APP下架的原因还不清楚,正在和平台的同事进行沟通。华为p40和苹果11续航对比oppo find x6 pro摄...
日期:08-01
支付宝开放中秋付款码皮肤数字藏品,旺旺等商家首批尝鲜_支付宝付款码中秋皮肤怎么获得
9月1日 消息:中秋佳节临近,观察到,9月1日起,毛戈平、旺旺、太平鸟、海尔、老庙黄金等商家,纷纷在支付宝推出中秋付款码皮肤数字藏品,并借助付款码皮肤数字藏品的热度,为自己的小程...
日期:09-03