您的位置:首页 > 互联网

独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型_谭平油画作品

发布时间:2023-10-31 20:48:47  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩,授权转载发布。

前段时间,OpenAI 发布了文生图模型 DALL・E3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:

可以看到,DALL・E3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。

但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。

类似的问题其实不仅存在于 DALL・E3等二维图像生成模型。当生成维度提升到三维时,问题变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西,模型似乎没有学到。

在香港科技大学电子与计算机工程系教授谭平看来,这些问题之所以存在,是因为现有的基础模型并没有充分地在3D 维度上去理解真实世界。

AI 最终需要解决真实世界的问题,那就必须要和物理世界发生联系。而我们这个物理世界是3D 的,所以自然而然,AI 必须理解3D,从而理解物理世界。 谭平指出。

作为在计算机视觉、计算机图形学领域工作了20多年的资深学者,谭平一直认为,3D 是人类视觉认知世界的基础,因此3D 信息对于模型准确理解真实世界非常关键。它和之前被大量利用的文字信息互为补充,是一个亟待挖掘的富矿。如果能够创建一个3D 基础模型,有效地挖掘这个富矿,AI 有望从语言走向物理,从字面走向现实,成为真正的、对真实世界有着深刻理解的通用模型。

谭平绘画

谭平的 Google Scholar 主页,其论文被引量达到了五位数。

基于这一理念,他所创立的 AI 科技公司 —— 光影焕像(Light Illusions)已经实现了一些基础技术上的突破:包括更准确的3D 重建和更优秀的文生3D 效果。

这些成果不仅可以应用于游戏、影视制作等行业,还会对 XR、具身智能等领域产生重要影响。

不过,由于3D 数据严重匮乏,这件事做起来并不容易。为了了解该公司背后的技术以及这些技术可能创造的社会价值,机器之心与谭平博士展开了深入对谈。

3D 基础模型:AI 走向现实的必由之路

为什么要构建一个3D 基础模型?在回答这个问题时,谭平选择从大规模预训练模型的本质开始讲起。

他表示,预训练模型本质上是在学习数据中的统计规律,希望从数据中发掘出各种对象之间的关联性,也就是知识。人类上千年文明沉淀下来的文字就蕴含了丰富的知识,比如逻辑、文学、历史、政治这些抽象的知识,所以能够训练出 GPT-4这类优秀的大型语言模型。

但是,真实世界还有很多要素是难以被准确描述的,或因为司空见惯很少被描述,包括空间结构、几何形状、3D 运动、接触变形等等。

由于文字存在这些局限,大家买房都需要看户型图,甚至通过 VR 看房来了解房间的空间结构,而不是光看文字描述;而设计师也需要给用户寄送3D 样品才能让对方准确理解新产品的外观。谭平举例说。

所以,谭平认为,要实现通用人工智能(AGI),我们需要两种类型的基础模型:一种是今天大家熟知的大语言模型(LLM),另一种则是视觉模型。两种模型学到的是不同类型的知识,互为补充。

不过,当前的一些视觉模型(比如 Midjourney)多是利用2D 图像来训练的,因为这类数据数量庞大,模型可以从中学到不同物体所具备的特征以及特征之间的关联,具有很强的泛化性。但美中不足的是,这些数据终究只记录了真实世界的一个侧面,或者说投影,会严重影响模型的学习效率,出现前面提到的多头、多脸等问题。而如果将模型对数据的理解上升到3D 维度,很多问题就会迎刃而解。

自然界里面其实也是这个样子。所有的处于食物链顶端的物种,比如说灵长类和所有的猛禽、猛兽都是双眼朝前的,因为只有双眼朝前才有所谓的双目视觉,才能更好地感知三维信息。谭平类比说。

因此,他们希望构建一个3D 基础模型,来让机器更深刻地理解真实世界,并以此为基础改造世界。从技术上来讲,这个模型要能够帮助机器感知3D 物体、3D 环境,理解形状、距离、空间位置关系等要素。同时,它还要有预判能力,预判这个3D 世界将如何随时间演化,推演可能发生的事件。比如,家庭服务机器人需要知道花瓶掉落地面可能会摔坏,自动驾驶汽车需要知道墙拐角后面可能会有车或人。谭平举例说。

3D 基础模型是一个非常宏大的目标,是让 AI 从语言走向物理,从字面走向现实的必由之路。一旦实现这个目标,机器就可以构建一个真实世界的虚拟数字复刻,在这个数字复刻中模拟、仿真各种可能性,并通过机器人技术最终改造真实世界。这是谭平带领的光影焕像希望达到的最终愿景。

在技术路线上,谭平认为,3D 基础模型也将采用和文本、图像一致的生成式预训练方式。因为生成模型采用自监督学习来训练神经网络,可以非常有效地处理海量训练数据。不过,在此之前,他们必须解决一个问题:如何在3D 数据极度匮乏的情况下训练3D 生成模型。

3D 数据:表达真实世界的稀缺富矿

预训练模型的本质是从数据中提炼知识。从这个角度来看,我们可以从两个维度来考察数据的价值:一个是数据中知识的丰富度,另一个是数据的规模。作为真实世界的一种高度精确的表达方式,3D 数据毫无疑问具有很高的知识丰富度,就像经济价值极高的富矿。但从数据规模上来看,3D 数据是极度稀缺的,因为这类数据通常是由艺术家们手工制作的,或者用专业的设备扫描而来,不像文字、图像那样在互联网上随处可见。

为了让我们直观地了解3D 数据的稀缺程度,谭平给出了一组数字:著名文生图模型 Stable Diffusion 使用了一个包含50亿个图像 - 文本对的数据集(LAION-5B)进行训练;但相比之下,当前最大的3D 数据集 Objaverse-XL 数据量仅达千万级,而且其中还包含很多质量参差不齐的数据,清洗后实际可用的数据完全没有办法和文字图像进行类比。在这种情况下,如果只用3D 原生数据去做训练,模型很容易过拟合,泛化性能会受到影响,能处理的任务非常有限。

3D 生成模型泛化能力不足的例子。在这几个例子中,模型分别被要求生成骑着火箭的柯基、背着双肩包的猪和弹吉他的松鼠,结果模型漏掉了一些元素。

3D 数据本来就在一个比2D 数据更高维的空间,很可能需要更多的数据才能训练好模型。所以目前的数据是极为不足的。这是一个全行业的挑战,很难在短期内解决。谭平介绍说。

为了应对这一问题,很多研究会选择基于2D 数据来训练生成模型。比如一种常见的路线是先用2D 生成模型生成一张2D 图像,再用这张生成的图像去优化一个3D 模型,然后重复这一过程,直到3D 模型渲染的图像和生成模型产生的2D 图像变得一致。这种方式的好处是训练数据易得,生成模型泛化能力强;局限性在于,由于2D 生成模型学到的3D 先验知识不够全面(比如缺乏关于相机视点的信息和物体的姿态、几何结构知识),生成的3D 结果会出现多视角不一致等问题(如下图中的几何结构错乱)。

因此,光影焕像的目标是在3D 数据稀缺的客观条件下,同时使生成模型的泛化能力、生成效果达到可落地水平。要突破这一目标,对3D 数据的认知是破局关键之所在。

光影焕像技术路线:用好3D 数据

2D 数据数量丰富,训练出的生成模型泛化能力强;3D 数据知识丰富度高,训练出的生成模型更懂3D 世界。因此,光影焕像在打造3D 模型时首创了基于多源数据的模型融合训练策略,把2D、3D 数据都充分利用了起来,重点提升了3D 数据的利用效率。

我们以一个熊的生成任务为例。单纯基于2D 图像训练的模型经常会生成多视角不一致的图像(如下图)。

所谓的多视角不一致可以从两个方面来理解:几何不一致(如多个头)和外观不一致(如多张脸)。在一项相关研究中,光影焕像发现,大多数的多视角不一致问题源于几何结构的错位。即在将2D 结果提升到3D 世界时,由于2D 生成模型仅学会了和视角无关的先验知识(颜色、纹理等在不同视角下都相同的信息),导致多视角不一致性问题。因此他们把主要目标定为通过改进2D 生成模型,使其能够产生3D 一致的几何结构,同时保持模型的通用性。

为了实现这一目标,团队提出了一种方法,即先用2D 图像训练扩散模型,然后再用3D 数据去对2D 扩散模型进行对齐(align),使2D 扩散模型具备视角感知能力,并生成规范坐标映射(CCM),从而在2D 到3D 的提升过程中与3D 几何结构对齐。利用这一方法,光影焕像仅使用相对少量的3D 数据,就能获得更强的结果,多视角不一致问题得到大大缓解。

而且,这样训练出的模型还保持了强大的泛化能力,支持更多样的创意(与仅基于3D 数据训练的模型相比)。

谭平绘画

不同模型文生3D 效果。最右为光影焕像的模型生成效果。

当然,除了文生3D 之外,利用2D 图像重建3D 物体也是一个常见的方向。光影焕像的团队近期研发了一款通过手机拍照实现高质量三维重建的软件,这背后离不开更准确的相机姿态估计。

我们团队过去有多年的三维视觉的技术积累,对于相机姿态求解更有经验,可以处理更复杂的数据。谭平介绍说。

这些基础技术突破为光影焕像未来打造强大的3D 基础模型打下了基础。

谭平:3D 基础模型刚刚起步

先解决技术问题才能加速拐点的到来

虽然是一家以技术起家的公司,但从谭平目前透露的信息来看,光影焕像并不崇尚闭门造车的做事方式,而是已经按照存量市场和增量市场的划分,展开了商业化落地的探索。

在存量市场上,3D 视觉在游戏、影视制作、物体 / 场景三维重建等 ToB 领域有着广阔的应用场景。这些领域需要消耗大量的3D 资产,但资产的制作周期却很长,成本也很高,严重拖累了产品的迭代更新速度,这是谭平观察到的现象。

不同于依赖专业人士制作3D 资产,目前海外的一些公司(比如 Minecraft、Roblox 等游戏公司)采取开放策略,让用户自己快速制作3D 内容,极大地挖掘了玩家的创意,提升了游戏的可玩性。但目前用户创建的内容质量都比较粗糙。我们的3D 基础模型有机会实现更高质量的内容创建。谭平介绍说。

从目前公布的技术进展中,我们也能看到光影焕像在这方面所做的努力。比如,他们的文生3D 技术其实支持多种生成类型(模型、纹理、 空间布局)和多种三维数据表达(经典网格模型、NeRF 等)。这意味着,他们的模型更容易集成到现有的渲染引擎、接到不同的应用中去。相比而言,今天很多文生3D 的模型都是基于 NeRF 表达来设计的,这样可能就没办法直接应用于游戏等应用,而光影焕像的模型就更为灵活。

在以 XR、具身智能等前沿技术驱动的增量市场上,光影焕像同样大有可为。

比如,在研发3D 生成模型过程中,他们发现,生成模型可以增强机器的泛化能力,帮助机器处理从未遇到过的场景问题:给定一个未知物体的图像,生成模型可以生成出这个物体适合被机械手抓取的点,然后结合三维坐标的深度信息形成稳定的抓取位置,控制机器人去抓取过去从未见过的物体,极大地提高了机器的通用抓取能力。

浙江美大集成灶官网

谭平 360

当然,这只是3D 生成模型应用于机器人研究的一个例子。在更广阔的具身智能领域,许多任务(如物体的姿态估计、操作序列生成)都需要在3D 空间中来完成,也都可以受益于3D 基础模型的发展。我们相信下一代消费级的计算终端终将到来,服务性机器人也终将会走到千家万户,3D 基础模型所带来的能力可以帮助这些智能设备理解真实物理世界,从而更好地完成各种任务。谭平展望说。

不过,需要承认的一点是,现在的3D 基础模型尚不成熟,可能处于 ChatGPT1.0的水平。但是,我们还是可以明显看到技术的拐点。按照团队当前的研发规划,光影焕像有望在2-3年内达到生产级别的可用性。因此,谭平认为,现在的重心应该是解决底层的技术问题,所有的短期商业化策略都应该是为技术的迭代和公司实现自我造血服务的,真正的商业化爆发时间点将在技术成熟之后。

为此,他组建了一支精悍的技术团队。团队成员大都来自于互联网大厂,包括阿里、字节、美团等。他们在三维视觉领域都有多年的研发经验,也取得了很好的成绩,例如2019年 KITTI Depth Completion Benchmark 第一名、2020年 Multi-view Stereo Benchmark 第一名、2022年 KITTI/NYU Depth Estimation Benchmark 第一名等。他们研发出的一些底层技术也被外界广泛应用,比如在2022年 CVPR 的 Image Matching Challenge 中,前6名有一半的团队采用了他们提出的用于图像匹配的网络 QTA。

对于公司所选的这个方向,身为创始人的谭平有着坚定的信念。20多年前,他被射影几何的优雅、简洁以及3D 视觉理论的严谨、深邃所吸引,走进了这个领域。后来在企业工作的经历让他认识到,虽然3D 很难,但是应用很丰富,不论是自动驾驶、机器人还是 AR/VR,各种应用都需要让机器理解真实物理世界,都离不开3D 视觉。这坚定了他深耕3D 这个方向的信心。

我非常笃定,在退休之前,我做的工作肯定只会是三维视觉,肯定都是跟自动驾驶、机器人、AR/VR 眼镜相关的东西,除了这个我可能什么都不想碰。谭平曾对学生说。

目前,谭平带领的这支创业团队已经得到了不少投资人的青睐。种子轮领投方清智资本合伙人张煜表示:

生成式 AI 是 AI 发展的新的里程牌。其中,3D 生成是 AIGC 发展的重要方向,也是行业难点。光影焕像团队具有世界顶尖的理论水平和扎实的实践功底,从基础模型层面上解决了包括生成模型的几何不一致和随机物体的自适应抓取等行业关键问题,使得 AI 向实用化迈出关键的一步,同时也大大推进了具身智能的商业落地,创造了基础理论的突破和巨大的产业价值。谭博士带领下的创业团队是一支有朝气、敢于突破创新、敢啃硬骨头的年轻团队,团队短时间内接连在理论研究、算法框架、工程实践、商业落地等各个方面获得了突破。作为专注于投资早期 AI 项目的创投基金,我们对团队未来发展充满信心,希望团队为社会发展和科技进步创造更大的贡献。

目前,光影焕像在3D 基础模型方向的工作正在稳步推进,我们期待他们早日实现下一个突破。


返回网站首页

本文评论
解码可持续发展 第十七届中国IDC产业年度大典隆重召开_idc产业联盟成立于2011年
2月27日-28日,以“解码可持续发展”为主题的第十七届中国IDC产业年度大典在北京国家会议中心盛大开幕。作为极具行业影响力的数字产业顶级盛会,IDCC年度大典举行期间,吸引超150...
日期:03-01
Gemini AI免费测试入口在哪 谷歌Gemini软件怎么样_谷歌测试版下载
谷歌Gemini AI是一款由谷歌人工智能部门开发的大型语言模型(LLM)。它是在一个包含文本、代码、音频、图像和视频的庞大数据集上训练的。Gemini AI可以用于各种任务,包括自然语...
日期:12-22
苹果官网显示iPhone 14 Plus最初被命名为「iPhone 14 Max」_IPHONE 14
9月29日消息:新发现的苹果网站上将iPhone14Plus称为「iPhone14Max」,这表明这是最初打算用于低端6.7英寸设备的名称,后来苹果公司在短时间内改变主意。据荷兰博客iCreate所发...
日期:10-04
外媒点评 ColorOS 的 Hyper Boost ,有效提升手机游戏性能
  近日,印尼当地著名媒体 detiknet、Gadgetren 和 kumparan 刊登了关于 ColorOS Hyper Boost 的相关内容,文中对 Hyper Boost 所带来的更稳定的游戏帧率、更快的运行速度以...
日期:07-14
蔚来屏幕有膜吗「蔚来手机官宣!曲面屏 支持屏幕指纹解锁」
近日,蔚来在一场在线活动中发布了其全新车型EC6。然而,在活动开始的前50秒内,一部手机多次出现在画面中,引发了外界对这可能是蔚来即将发布的首款手机的猜测。 根据视频显示,这部...
日期:09-18
科技全“数”前进!江苏电信点亮智慧新生活_江苏省电信
通信世界网消息(CWW)10月23日,以“数实融合增动能  创新引领促发展”为主题的2023(第十届)江苏互联网大会在南京盛大开幕。在此次展会上,中国电信带来“新科技”、“新应用”、...
日期:10-25
上海联通完成业界首个高可靠下一代光接入网50G PON技术方案验证「上海联通光纤」
通信世界网消息(CWW)2023年8月,上海联通联合中兴通讯在未来网络实验室,成功完成了对满足ITU-T标准的下一代光接入网50G PON方案的多项关键技术特性验证,样机系统性能全部达到测试...
日期:08-29
国服的暴雪账号不能用国际服务吗「暴雪中国回应国服回归 目前没有可以分享的信息」
据媒体报道,网易暴雪再度携手,将引进《魔兽世界》国服版,对此,暴雪中国回应:“目前我们这里没有任何可以公布的消息或者进展。”12月25日,36氪爆料,暴雪与国内多个游戏厂商进行了...
日期:12-26
不健身也能拥有马甲线?美图秀秀让你躺赢举铁党_不减脂就练马甲线
  近日,美图秀秀再出逆天新玩法:一键P腹肌功能。用户在增高塑形模块找到线条功能,经过简单调试,即可拥有健美的腹肌线条。在美图秀秀,用户聚集在“腹仇者联盟”话题中分享自己...
日期:05-04
高德地图版本更新 正式上线路灯导航和小路提示
1月16日消息,近日,高德地图迎来版本更新,针对日常骑行和步行较多的用户提供了重要升级,正式上线路灯导航和小路提示。oppo翻盖折叠屏格力电器2023年营收6000亿mac book pro怎么...
日期:01-16
gt2和gt2pro什么区别「gt2和gt2pro哪个处理器好","info":{"wordid":"7039575054896846092
来源:中关村在线根据微博网友的留言,真我GT2 Pro被认为没有搭载到一颗好的处理器。然而,最近@realme 王伟发微博表示,真我GT5 Pro将会采用类似GT2 Pro的设计语言。2021年iphone1...
日期:11-07
每天走多少步能消耗一天的热量「科学家首次发现,每天走2517步就能降低死亡风险,你一天走几步」
荷兰拉德堡德大学医学中心的研究团队,在《美国心脏病学会杂志》上发表了一项研究成果:其中内容是每天仅走2517步就可以显著降低死亡风险,而这一发现直接引起了广泛的关注和讨论...
日期:10-08
持续突破高端市场!OPPO一季度表现亮眼,全球前四、国内第一「oppo国内销量第一」
近日,多家市场监测机构发布了2023年第一季度全球智能手机市场的跟踪报告,分析了主要厂商在全球市场的出货表现。根据Counterpoint数据显示,2023年第一季度,三星苹果依旧稳居前二...
日期:07-12
懒人听书红色书单礼赞祖国_国旗颂书籍
  国庆将至,知名有声阅读平台懒人听书于近期发起了为祖国祝福的活动,推出红色书单,邀平台用户一起共读经典,追溯精神之源。该书单收纳了《中国改革三部曲》《丝绸之路:一部全...
日期:12-26
工信部:加大对民营企业参与移动通信转售等业务和服务创新的支持力度
通信世界网消息(CWW)为深入推进信息通信行业管理创新,进一步优化营商环境,推动信息通信行业高质量发展,持续发挥行业支撑经济社会发展的战略性、基础性、先导性作用, 近日,工业和信...
日期:10-09
每日优鲜上市后的市值「昔日生鲜电商股 每日优鲜2021年年报发布:全职员工仅剩55人」
11月15日消息,日前,每日优鲜在美国证监会官网上传其截至2021年12月31日的财务报表。360安全科技股份有限公司官网财报显示,2021年总营收为69.65亿元,同比增长13.3%。其中,产品销...
日期:11-20
男子恶意下单1209袋方便面被商家起诉!结果反赔1200元「小伙高价卖方便面」
网络购物早已成为人们熟悉的购物方式,线上下单后,只需在家等待快递即可,商品不合适的话,也能在符合规定的前提下无理由退货,十分方便。据江苏新闻消息,因对网购的藕粉质量不满意,消...
日期:03-30
大卖2.5亿部!苹果昔日神机iPhone 6二手收购价低至100元「苹果6价格」
最近,苹果更新了其过时产品列表,史上最畅销的iPhone系列机型之一iPhone6退休”,正式退出历史舞台,该机型距停售已过去五年多时间。2019年,苹果生产线调整,iPhone6正式停产,5年之间,i...
日期:10-05
用AI“复制”另一个你?腾讯云推出2D真人小样本数智人
如果让你用一句话简单描述下腾讯的“数智人” ,你会想到什么?“它既可以是多才的员工,也可以是吸粉的明星代言人。”这是腾讯云智能数智人产品总经理陈磊的答案。2022年9月,在央...
日期:04-27
蔚领时代“聚势·破界” :发布MR内容产品和AI内容产品,4+2组织正式亮相,共建MR内容生态,为下一个时代播下“种子”
在不确定中寻找确定性,将成为未来很长时间内一种普适的生存和发展思维。而在 2023 这样一个既伴随着巨大的变化,又孕育着新生的年份,无疑MR、AI这些必将贯穿未来数十年的词汇,正...
日期:07-27