您的位置:首页 > 互联网

5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D

发布时间:2024-06-09 18:47:47  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:陈林,授权转载发布。

使用大模型合成的数据,就能显著提升3D生成能力?

来自上海交大、香港中文大学等团队还真做到了。

他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。

结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。

目前,Bootstrap3D的数据集已经全面开源。

用大模型合成数据

近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。

其中核心的瓶颈即在于3D数据,尤其是高质量数据的不足。

为了解决这一问题,研究团队推出Bootstrap3D框架,通过自动生成多视图图像数据来解决3D内容生成中高质量数据不足的问题。

具体来说,这个框架采用了2D和视频扩散模型来生成多视图图像,并利用一个经过微调的3D多模态大模型对生成的数据进行质量筛选和描述重写。

通过这种方式,Bootstrap3D能够自动产生大量高质量的3D图像数据,从而“自举”出一个足够大的数据集,辅助训练更优秀的多视图扩散模型。

这里插一嘴,在计算机科学和机器学习领域,“Bootstrap”通常指的是一种通过自举方法解决问题的技术。

数据构建Pipeline

具体来说,数据构建Pipeline是本次框架的核心创新之一,旨在自动生成高质量的多视图图像数据,并附带详细的描述文本。

主要分为以下几个步骤:

文本提示生成:首先,使用强大的大语言模型(如GPT-4)生成大量富有创意和多样化的文本提示。这些文本提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。

图像生成:利用2D扩散模型和视频扩散模型,根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势,生成的图像具有更高的初始质量和多样性。

当今的cpu芯片除了包括

多视图合成:使用视频扩散模型将单视图图像扩展为多视图图像,生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性,解决了传统方法中视图不一致的问题。

质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据,还重写描述文本,使其更加准确和详细。

通过这个数据构建Pipeline,Bootstrap3D能够生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。

这一创新不仅解决了3D数据稀缺的问题,还显著提升了模型的生成效果和对文本提示的响应能力。

训练timestep重安排(TTR)

团队还提出了一种创新的训练timestep重新安排策略(TTR),以解决多视图扩散模型训练中的图像质量和视图一致性问题。

TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步,从而优化去噪过程的不同阶段。

去噪过程的阶段性特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频成分);在后期时间步,则主要生成图像的细节和纹理(高频成分)。这种阶段性特征为我们提供了调整训练策略的机会。

限制合成数据的训练时间步:由于合成数据可能存在一些模糊和失真,我们在训练时限制其时间步范围。具体来说,我们让合成数据主要参与早期的去噪阶段,确保它们对整体结构的贡献,而将后期的细节生成留给质量更高的真实数据。

分阶段训练策略:通过将合成数据限制在较大的时间步范围内(如200到1000步),我们确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图一致性。同时,真实数据则参与所有时间步的训练,以提供高频细节和真实感。这样的分阶段训练策略有效平衡了图像质量和视图一致性。

实验证明效果显著:广泛的实验结果表明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面均表现优异。该策略不仅保留了原始2D扩散模型的优点,还显著提升了多视图生成的效果。

通过训练时间步重新安排策略(TTR),Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量3D内容生成奠定了坚实基础。

好了,Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。

论文地址:

https://arxiv.org/abs/2406.00093/

项目主页:

https://sunzey.github.io/Bootstrap3D/

数据集地址:

https://huggingface.co/datasets/Zery/BS-Objaverse/


返回网站首页

本文评论
甲醛超标危害大,金能电力环保型绝缘胶垫:零甲醛 护健康_绝缘垫推荐河北金能电力
甲醛是一种无色有刺激性的气体,易被人体吸收,如果甲醛含量超过一定的标准,人体就会产生恶心、头痛、胸闷气短、胸闷气短等不适症状,而长时间接触甲醛更会对身体会产生严重的危害...
日期:11-23
天猫年货节“解锁”商品定制新玩法,2023爆款抢先押宝「天猫年货节保价」
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:王卓霖,授权转载发布。“欢迎登陆天猫2023理想生活体验版,请做好准备,完成新手任务。”12月27日,天猫发布了一支由代言人...
日期:01-01
详解京东财报:将创新付费会员体系 同城零售布局新品类曝光
  在宣布京东PLUS会员数量突破3000万后,8月23日,京东集团发布了2022年二季度及中期业绩。  2022年上半年,京东集团净收入为5073亿元人民币(约757亿美元),同比增长11.0%。二季...
日期:08-24
国产新SSD发布:基于RISC-V架构 全面兼容国产自研系统、处理器平台
快科技5月16日消息,芯盛智能发布基于RISC-V开源架构主控芯片的高性能PCIe SSDEP2000Pro、MP2000Pro及EP3000,其还全面兼容国产自研操作系统、CPU等平台。从官方公布的数据看,EP...
日期:05-16
蚂蚁链牵头两项区块链国际标准在ITU成功立项_国家区块链标准委员会
11月18日 消息:近日,国际电信联盟第十六研究组(简称ITU-T SG16)召开全体会议。会上,由蚂蚁链牵头的两项区块链国际标准获得立项通过。包括:ITU-T H.DLT-SCLMR “Smart contract...
日期:11-20
苹果供应商国巨8月实现营收18.5亿元 同比增长113.7%_苹果公司业务占比
9月7日消息,苹果供应商国巨今日发布了8月营收报告。国巨8月实现营收新台币72.96亿元(约合人民币18.5亿元),单月营收较上月增加4.1%,并较去年同期增加113.7%。国巨累计1至8月合并...
日期:08-01
OpenAI、谷歌等AI头部企业承诺为AI内容加水印「ai做谷歌图标」
7月21日 消息:根据路透社的报道,美国今天宣布,已经获得了多家人工智能公司的自愿承诺,将对人工智能生成的内容采取加水印等措施,以提高技术的安全性。OpenAI、谷歌等七家AI头部...
日期:07-21
章泽天高调现身戛纳晚宴上热搜 气质不输娱乐圈女星_章泽天爆料
据报道,章泽天出现在戛纳晚宴现场的视频在网络上引起热议。当晚,她穿着黑色抹胸礼服,一头波浪卷曲的长发,皮肤白皙,五官精致,整体气质高雅强大,不输给任何一位圈内女明星。iphone15...
日期:05-24
B站将转为双重主要上市 10月3日正式生效_B站上市日期
凤凰网科技讯 9月29日消息,港交所官网显示,B站在香港联交所由第二上市转为主要上市,将于10月3日正式生效。届时,B站将成为中国TMT(科技、媒体、通信)企业中首家完成自愿由在港二次...
日期:09-30
华为5g项目介绍「华为举办5G商业对话沙龙,携手运营商共促5G产业再升级」
华为举办5G商业对话沙龙,携手运营商共促5G产业再升级 通信产业网|2023-06-27 22:20:10作者:通文来源:通信产业网在2023 MWC 上海期间,华为举办“5G商业对话沙龙”,旨在面向国内外...
日期:06-28
超迷你芯片植入大脑,能用意念控制电脑_用芯片控制人脑
美国普渡大学的科学家们设计了一种比一角硬币还小的装置,它能感应并向一副耳罩式耳机传输数据,让人们用意念控制计算机和智能设备。与目前的脑芯片不同,这种植入物不需要连接电...
日期:10-01
小米汽车向华为比亚迪致敬 比亚迪回应:欢迎加入大家庭_小米汽车与谁合作
12月27日 消息:在今日小米汽车的发布海报中,他们向中国新能源汽车行业的先驱者们,包括比亚迪、蔚来、小鹏、理想和华为表达了敬意。随后,小鹏汽车和比亚迪汽车分别回应了小米汽...
日期:12-27
2028 推出 OLED iPad Air Omdia,预估苹果 2026 推出折叠屏 iPhone_ipad2020是oled吗
IT之家 3 月 16 日消息,市场调查机构 Omdia 近日在韩国首尔举办了一场发布会,高级研究员 Kang Min-soo 谈到了苹果 OLED 面板的发展规划,以及折叠屏的相关信息。IT之家基于 Omd...
日期:03-16
倒闭的团购平台_国内团购进入快速淘汰期 部分网站为圈钱上市
  中秋临近,网上团购月饼成为不少年轻人的选择。然而与去年团购火爆的行情相比,今年似乎有些冷清。户外和电视广告也印证了这一点:年初在地铁和公交上随处可见的团购网站广...
日期:07-22
暗黑4还不出「《暗黑4》交易系统再次关闭:又是因为复制装备Bug」
快科技10月23日消息,暴雪今天在其社区发布公告,由于存在Bug,目前已经暂停《暗黑破坏神4》第二赛季血之赛季的玩家交易系统,直至另行通知。暴雪的公告表示,这次的Bug为玩家可以通...
日期:10-23
迈向全球:电商企业如何成功实现海外投放?-钛动科技_境外电商怎么运营
随着全球化进程的不断加速,越来越多的电商企业开始将目光投向海外市场,期待在全球范围内寻找新的增长机会。海外投放不仅可以帮助电商企业拓宽市场,获取更多的用户,还能够提高品...
日期:04-02
苏宁直播上线健康学堂 在线直播新型肺炎病毒预防知识
  随着春节假期返程人流的来临,新型冠状肺炎病毒感染存在扩大危险,人们对病毒的防御仍不可掉以轻心。针对目前要避免上街,去人流密集等防疫措施,从2月2日起,苏宁直播通过直播...
日期:05-17
科学家的设想「扎克伯格为美国人描绘了一张科技蓝图」
  Meta首席执行官马克·扎克伯格(Mark Zuckerberg)。图片来源:TOBIAS HASE—PICTURE ALLIANCE/GETTY IMAGES  这一情况最终还是发生了。“sweet baby rays”烧烤酱爱好者、...
日期:09-04
499元!乐视Y1 Pro+发布:复刻iPhone 13设计
今日,乐视Y1 Pro+新机上架,提供6GB+64GB、4GB+128GB、4GB+256GB三种配置,售价分别为499元、599元、799元,新机目前已开启预售,将于11月24日起发货。乐视Y1 Pro+正面采用iPhone同...
日期:11-16
元旦假期将至!网易游戏公布未成年人限玩通知:共4小时
据此前官方公布,2023年元旦放假时间:2022年12月31日(周六)、2023年1月1日(周日)、2023年1月2日(周一),共三天,没有调休。对此,网易游戏也提前发布了未成年人假期限玩游戏通知,根据...
日期:12-27