您的位置:首页 > 互联网

3d视频设计「Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放」

发布时间:2024-03-20 21:32:36  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

3D 生成领域迎来新的SOTA 级选手,支持商用和非商用。

3d视频模板

Stability AI 的大模型家族来了一位新成员。

昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了3D 视频生成大模型Stable Video3D(简称 SV3D)。

该模型基于 Stable Video Diffusion 打造,能够显著提升3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。

目前,Stable Video3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

Stable Video3D 的生成效果如下视频所示。

Stability AI 提供了两个模型变体,分别是 SV3D_u 和 SV3D_p。其中 SV3D_u 基于单个图像输入生成轨道视频,不需要相机调整;SV3D_p 通过适配单个图像和轨道视角扩展了生成能力,允许沿着指定的相机路径创建3D 视频。

目前,Stable Video3D 的研究论文已经放出,核心作者有三位。

  • 论文地址:https://stability.ai/s/SV3D_report.pdf

  • 博客地址:https://stability.ai/news/introducing-stable-video-3d

  • Huggingface 地址:https://huggingface.co/stabilityai/sv3d

direcX repair

技术概览

腾讯tim云文件功能将停止服务怎么办

Stable Video3D 在3D 生成领域实现重大进步,尤其是在新颖视图生成(novel view synthesis,NVS)方面。

以往的方法通常倾向于解决有限视角和输入不一致的问题,而 Stable Video3D 能够从任何给定角度提供连贯视图,并能够很好地泛化。因此,该模型不仅增加了姿势可控性,还能确保多个视图中对象外观的一致性,进一步改进了影响真实和准确3D 生成的关键问题。

如下图所示,与 Stable Zero123、Zero-XL 相比,Stable Video3D 能够生成细节更强、更忠实于输入图像和多视角更一致的新颖多视图。

此外,Stable Video3D 利用其多视角一致性来优化3D 神经辐射场(Neural Radiance Fields,NeRF),以提高直接从新视图生成3D 网格的质量。

为此,Stability AI 设计了掩码分数蒸馏采样损失,进一步增强了预测视图中未见过区域的3D 质量。同时为了减轻烘焙照明问题,Stable Video3D 采用了与3D 形状和纹理共同优化的解耦照明模型。

下图为使用 Stable Video3D 模型及其输出时,通过3D 优化改进后的3D 网格生成示例。

3d视频制作方法

下图为使用 Stable Video3D 生成的3D 网格结果与 EscherNet、Stable Zero123的生成结果比较。

架构细节

Stable Video3D 模型的架构如下图2所示,它基于 Stable Video Diffusion 架构构建而成,包含一个具有多个层的 UNet,其中每一层又包含一个带有 Conv3D 层的残差块序列,以及两个带有注意力层(空间和时间)的 transformer 块。

3d视频模板

具体流程如下所示:

(i) 删除fps id和motion bucket id的矢量条件, 原因是它们与 Stable Video3D 无关;

(ii) 条件图像通过 Stable Video Diffusion 的 VAE 编码器嵌入到潜在空间,然后在通向 UNet 的噪声时间步 t 处连接到噪声潜在状态输入 zt;

(iii) 条件图像的 CLIPembedding 矩阵被提供给每个 transformer 块的交叉注意力层来充当键和值,而查询成为相应层的特征;

(iv) 相机轨迹沿着扩散噪声时间步被馈入到残差块中。相机姿势角度 ei 和 ai 以及噪声时间步 t 首先被嵌入到正弦位置嵌入中,然后将相机姿势嵌入连接在一起进行线性变换并添加到噪声时间步嵌入中,最后被馈入到每个残差块并被添加到该块的输入特征中。

此外,Stability AI 设计了静态轨道和动态轨道来研究相机姿势调整的影响,具体如下图3所示。

在静态轨道上,相机采用与条件图像相同的仰角,以等距方位角围绕对象旋转。这样做的缺点是基于调整的仰角,可能无法获得关于对象顶部或底部的任何信息。而在动态轨道上,方位角可以不等距,每个视图的仰角也可以不同。

为了构建动态轨道,Stability AI 对静态轨道采样,向方位角添加小的随机噪声,并向其仰角添加不同频率的正弦曲线的随机加权组合。这样做提供了时间平滑性,并确保相机轨迹沿着与条件图像相同的方位角和仰角循环结束。

实验结果

Stability AI 在未见过的 GSO 和 OmniObject3D 数据集上,评估了静态和动态轨道上的 Stable Video3D 合成多视图效果。结果如下表1至表4所示,Stable Video3D 在新颖多视图合成方面实现了 SOTA 效果。

表1和表3显示了 Stable Video3D 与其他模型在静态轨道的结果,表明了即使是无姿势调整的模型 SV3D_u,也比所有先前的方法表现得更好。

消融分析结果表明,SV3D_c 和 SV3D_p 在静态轨道的生成方面优于 SV3D_u,尽管后者专门在静态轨道上进行了训练。

下表2和表4展示了动态轨道的生成结果,包括姿势调整模型 SV3D_c 和 SV3D_p,后者在所有指标上实现了 SOTA。

下图6中的视觉比较结果进一步表明,与以往工作相比,Stable Video3D 生成的图像细节更强、更忠实于条件图像、多视角更加一致。

更多技术细节和实验结果请参阅原论文。


返回网站首页

本文评论
iPhone折叠屏渲染图出炉!隐藏式刘海成了「iphone刘海屏改形状」
中关村在线消息:11月4日,据相关爆料,iPhone或将在2024年推出首款折叠屏产品,该设备或采用与三星Galaxy Z Filp相同的竖着方案,可以看出机身正面没任何挖孔,采用了全新设计的隐藏式...
日期:11-10
元旦期间麻辣兔头销量暴涨!多家品牌直播间卖断货
2023年第一天淘宝上卖得最火的东西是什么?答案是:兔头。据媒体报道,元旦期间兔头销量暴涨。相关数据显示,新年首日淘宝上兔头”销量同比暴涨160%,其中麻辣口味最受欢迎。不少淘宝...
日期:01-04
华为云网站高可用解决方案引爆华为云开年采购季:助力多场景下业务高可用、数据高可靠
通信世界网消息(CWW)随着数字化转型进程不断深入,企业核心系统的稳定性、云上业务的连续性逐渐成为影响企业持续运营的关键因素。为了让中小企业上云之旅走得更加稳健,华为云开...
日期:03-06
谷歌captcha「ChatGPT真的伤害谷歌搜索了吗? 数据表明:并没有」
3月2日 消息:根据美国银行全球研究部的数据,OpenAI 开发的聊天机器人 ChatGPT 的每日流量继续飙升,对比之下谷歌搜索收入迄今为止保持稳定。美国银行全球研究部分析师 Justin...
日期:03-02
罕见!新疆出现绚丽极光 太阳活动强时中高维度地区可见_新疆看太阳
24日,科普博主@Jeff的星空之旅在新疆拍摄到了壮丽的极光。他表示,这次极光是由日冕物质抛射引起的G-4级超强地磁暴所致,强度达到KP=8。拍摄中不仅捕捉到了红色和紫色极光,还出现...
日期:04-25
捷克一女婴出生2天就被母亲打耳洞 妈妈:应该是不疼的
5月31日消息,一位捷克宝宝刚出生两天就被妈妈打了耳洞。这名宝宝叫劳拉,去年1月20日出生。劳拉的妈妈说:当孩子只有2到3天大时,不会像1到2岁时感受疼痛那么敏感。她还补充道,是专...
日期:05-31
指控ChatGPT侵犯版权,多家新闻机构起诉微软和OpenAI
2 月 29 日消息,科技巨头微软及其生成式人工智能合作伙伴 OpenAI 正因旗下聊天机器人 ChatGPT 和 Copilot 的使用而面临更多诉讼。据 The Verge 报道,三家美国新闻网站 ——Ra...
日期:02-29
华为数据库gaussdb下载_华为云发布GaussDB系列新品,数据库战略全面升级
  7月20日,华为云在TechWave技术峰会上正式发布了GaussDB系列新品,数据库战略全面升级,进一步满足政企客户业务需求,持续加速客户数字化转型进程。   华为云数据库业务总...
日期:07-14
2.5万元的苹果头显,会是你的下个iPhone吗?_苹果头百科
东西问客户端综合报道时隔近10年,苹果再度发布重磅新品。北京时间6日凌晨,苹果2023年全球开发者大会(WWDC),发布了该公司首款MR头显设备Apple Vision Pro,这是苹果公司自2014年以...
日期:06-07
第31届中国电视金鹰奖揭晓:《人世间》赢麻了 拿下最佳导演、男女主角奖
11月6日晚,第31届中国电视金鹰奖暨第14届中国金鹰电视艺术节颁奖晚会在湖南长沙举行。当晚,《觉醒年代》获最佳电视剧奖,《人世间》《百炼成钢》《对手》《功勋》等8部电视剧获...
日期:11-08
华为手机断供芯片后的出路「芯片断供两年后,华为手机的现状?」
回答这个问题之前,我们来看看华为的辉煌时刻谷歌搜索总是显示无法访问2019年三星手机全球出货量为3亿部,市场占比21.8%,华为手机全球出货量2.4亿部,市场占比17.6%,较去年的14.4%...
日期:09-26
聊天宝下载量位列App Store第一名,多个功能引人关注
  近日,快如科技在北京举办了一场发布会,正式宣布“子弹短信”APP迭代为“聊天宝”。发布会结束当天,聊天宝下载量直线飙升,两天时间迅速登顶App Store,目前仍排第一位。  ...
日期:05-16
欧菲光:苹果“弃子”,牵手华为亦难重生
10月15日晚间,欧菲光(002456.SZ)发布公告,自9月28日—10月13日,公司股价与同期深证成指偏离度较大,且高于同行业公司的同期涨幅,请投资者充分了解二级市场交易风险。不过,投资者貌似...
日期:10-17
合作伙伴数量增长60%、收入增长120%,腾讯云助力华东产业互联网数字化转型
  11月20日,在腾讯全球数字生态大会·上海峰会上,腾讯云副总裁陈广域公布了腾讯云华东区域合作伙伴生态建设的成绩单:2019年,腾讯云华东合作伙伴数量同比增长了近60%,收入同比...
日期:10-25
“华为充电器不支持iPhone15”登热搜,双方回应→_华为充电器能充iphone吗
看似外观完全一致的USB-C接口,充电器可能存在差异。9月26日,#实测苹果无法用华为充电器#排在热搜前列。此前,苹果iPhone15系列在9月22日正式开售,全系Lightning接口改为支持USB-...
日期:09-26
首次参赛即夺冠! 百度喜提VOT 2019单目标短时跟踪国际竞赛冠军
  近日,计算机视觉领域三大顶会之一ICCV于韩国首尔落下帷幕。在此次的ICCV VOT 2019单目标跟踪国际竞赛中,百度大脑视觉技术团队&华中科技大学电信学院团队击败了来自全球...
日期:06-05
高端医疗器械国产化正当时,赛克赛斯助力医疗器械产业发展_赛克赛斯生物老板
今年两会的政府工作报告中,两会代表们针对医疗器械产业的发展进行提案。可以说国产高端医疗器械发展备受社会各界关注。目前,高端医疗器械国产化率仍然较低,产业链发展不平衡不...
日期:04-27
而经过7月26日的再次收购,北汽将成为神州租车最大「因出租车短缺,俄罗斯巨头 Yandex 请求北汽、奇瑞等车企向其供车」
IT之家9月3日消息,据俄罗斯卫星通讯社,Yandex请求中国汽车制造商北汽集团和奇瑞以及俄罗斯本田车企伏尔加、白俄罗斯车企Unison为与Yandex.Taxi合作的租赁公司提供车辆。租约...
日期:09-15
赛博老公「赛博养娃,专治压力山大」
声明:本文来自于微信公众号 半佛仙人(ID:banfoSB),作者:半佛仙人,授权转载发布。1前段时间我贼焦虑。很多朋友说女性会有产前焦虑,其实男人也有。疑惑,明明几年前还是如花般的小伙...
日期:12-04
苹果正评估欧盟新规开放iMessage要求,暂未考虑部署RCS
  IT之家12月14日消息,援引彭博社报道,苹果正计划向第三方应用开放浏览器引擎、NFC及其它功能,并允许在iPhone上运行第三方应用商城。在这份报告中还指出苹果内部尚未对“如...
日期:12-14