您的位置:首页 > 互联网

揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”

发布时间:2024-02-18 13:35:14  来源:互联网     背景:

声明:本文来自于微信公众号 硅星人Pro(ID:Si-Planet),作者:苗正 王兆洋,授权转载发布。

当全球还沉迷在如何用文本生成文本,以及文本生成图片的时候,OpenAI就这么掏出来了一个视频生成模型Sora。有关Sora的具体介绍和效果展示可以看我们昨天的文章《OpenAI Sora问世,通往AGI的又一个ChatGPT时刻!GPT4可能也要被干掉了》。简单来讲,这是一个能够根据文本指令或静态图像生成长达1分钟视频的扩散模型,而且视频中还包含精细复杂的场景、生动的角色表情以及复杂的镜头运动——它做到了目前市面上视频模型做不到的东西。

那么Sora是如何做到的?在昨天的文章中,我们曾第一时间基于仅有的信息给出了一个判断:

简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习图像视频数据和它体现出的模式,然后还可以直接用学习来的图像生成模型最能理解的方式,给这些利用了引擎等已有的强大而成熟的视频生成技术的视觉模型模块下指令,最终生成我们看到的逼真而强大的对物理世界体现出“理解”的视频。

而之后OpenAI发布了Sora的技术报告:《Video generation models as world simulators》(视频生成模型作为世界模拟器),其中介绍的技术思路基本印证了我们上面的判断。

接下来我们一起来基于有限但足够信息丰富的技术报告来解读一下Sora背后的技术。

小米4的图片

用大语言模型的方法理解视频

Sora的设计灵感来自于大语言模型,最主要的原因是大语言模型有一个核心功能是通过代码将多种文本形式进行了统一。而OpenAI为了训练出Sora,他们的做法也是将各类视觉数据转化为统一表示的方法。

不过在正式了解Sora之前,我们需要先科普一个概念——块(patches)。有点类似于大语言模型中的token,块指的是将图像或视频帧分割成的一系列小块区域。这些块是模型处理和理解原始数据的基本单元。

对于视频生成模型而言,块不仅包含了局部的空间信息,还包含了时间维度上的连续变化信息。模型可以通过学习patches之间的关系来捕捉运动、颜色变化等复杂视觉特征,并基于此重建出新的视频序列。这样的处理方式有助于模型理解和生成视频中的连贯动作和场景变化,从而实现高质量的视频内容生成。

OpenAI又在块的基础上,将其压缩到低维度潜在空间,再将其分解为“时空块”(spacetime patches)。

晕了是不是,别急,一个一个解释。潜在空间是一个3年前出现的概念,是指一个高维数据通过某种数学变换(如编码器或降维技术)后所映射到的低维空间,这个低维空间中的每个点通常对应于原始高维数据的一个潜在表示或抽象特征向量。但是呢,优化强大的扩散模型往往需要消耗数百个GPU日的计算资源,并且由于其序列评估性质,推理成本较高。因此,本质上来讲潜在空间,就是一个能够在复杂性降低和细节保留之间达到近乎最优的平衡点,极大地提升了视觉保真度。

比亚迪新能源上半年销量

时空块则是指从视频帧序列中提取出的、具有固定大小和形状的空间-时间区域。相较于块而言,时空块强调了连续性,模型可以通过时空块来观察视频内容随时间和空间的变化规律。

为了制造这些时空块,OpenAI训练了一个网络,用于降低视觉数据的维度,叫做视频压缩网络。这个网络接受原始视频作为输入,并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练和生成视频。同时,OpenAI还也训练了一个相应的解码器模型,用于将生成的潜在向量映射回像素空间。

刚才咱们也聊了,说这个“块”是非常接近token的,那么这些块的作用也应该和token差不太多。对于给定的压缩输入视频,OpenAi就直接提取一系列块作为Transformer token使用,然后这些时空块会被进一步编码并传递给Transformer网络进行全局自注意力学习。最后利用Transformer的强大能力来处理并生成具有不同属性的视频内容。

这一方案同样适用于图像,因为图像可以看作是仅有一帧的视频。基于块的表示方法使得Sora能够对不同分辨率、时长和宽高比的视频和图像进行训练。在推理阶段,可以通过在一个适当大小的网格中排列随机初始化的块来控制生成视频的尺寸。

此外,在Sora模型的介绍页面虽然提到的都是通过文本来生成视频,但Sora还能够接受其他类型的输入,比如图像或视频,以达到图片生成视频、视频生成视频的效果。这一特性使得Sora能够执行广泛的图像和视频编辑任务——例如制作完美循环播放的视频、为静态图像添加动画效果、向前或向后延展视频时间轴等。

实现对物理世界的“涌现”

在长期的训练中OpenAI发现sora模型逐渐拥有了一项新能力,叫做三维一致性。指的是Sora能够生成动态视角的视频。同时随着视角的移动和旋转,人物及场景元素在三维空间中仍然保持一致的运动状态。

ios内置天气app

这个可能对咱们人类来说没什么,但是对于人工智能来说,还是相当厉害的。人工智能理解三维物理世界,跟人类理解三维物理世界的方式不一样,它采用了一种拓扑结构上的理解。注意,这里的拓扑结构不是计算机的拓扑结构,而是拓扑学中的拓扑结构。拓扑结构是一个几何或空间的抽象描述,用于描述集合中元素之间的连接方式和空间属性,而不考虑具体的度量或形状。它关注的是空间中点与点之间的连通关系以及空间的整体形状,而不是具体尺寸或角度等细节。

除此之外,既然视频的视角发生变化,那么相应的纹理映射也要改变。Sora的真实感非常强,换句话说,纹理映射在拓扑结构上就得非常准确。三维一致性能力使Sora能够模拟来自现实世界中人物、动物和环境的某些方面。

一个让人兴奋中带着点害怕的消息是,这些属性并非通过为3D、物体等添加明确的归纳偏置而产生——它们纯粹是规模效应的现象。也就是说,是Sora自己根据训练的内容,判断出了现实世界中的一些物理客观规律,某种程度上,人类如果仅仅是通过肉眼观察,也很难达到这样的境界。

还有一点,视频生成系统面临的一项重大挑战是在生成长视频时保持时间上的连贯性。而Sora也能够有效地模拟短程和长程依赖关系。例如,即使人物、动物或物体被遮挡或离开画面,Sora仍能保持这些元素存在于视线外,等到视角转换到能看到他们的时候,再将这些内容展现出来。同样的,它能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。

事实上这点倒没有什么,因为Sora是从transformer模型中孕育的,而transformer模型本身就能通过全局自注意力机制等技术来实现很高的连续性。Sora只不过是从视频方面阐述了这种连续性而已。

对此,OpenAI得出了一个结论:视频生成模型是构建通用物理世界模拟器的一条有前景的道路。

Sora目前所展现的能力表明,它是能通过观察和学习来了解物理规律。就Sora的这个理解力,说句实在的比我都强,老师在上面讲课,我只能做到眼睛会了,脑子不会。

不过Sora当前作为一个模拟器存在许多局限性。在OpenAI的主页上,他们列举了该模型的一些常见失效模式,比如在长时间采样中可能出现的不连贯现象,以及物体无端出现等异常情况。从现有的结果来看,它还无法准确模拟许多基本交互的物理过程,像是玻璃破碎,以及其他类型的交互,比如吃食物。物体状态的变化并不总是能够得到正确的模拟,这说明很多现实世界的物理规则是没有办法通过现有的训练来推断的。

这些是这篇技术报告里最核心的信息,一如既往的,OpenAI在模型和实现细节方面继续保持Close,不过,在报告中,OpenAI在不停提到“大力出奇迹”的效果:

苹果a16芯片是基于什么架构的

关于涌现,它写道:我们发现,当大规模地进行训练时,视频模型展现出许多有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。

OpenAI显然在把Sora描述成它一直坚持的Scaling law的又一次胜利——没有多么纯粹原创的技术,很多技术成分早已存在,但它却比所有人都更笃定的走了下去,并用足够多的资源在巨大的规模上验证了它。


返回网站首页

本文评论
今冬第二波寒潮南下发威!多地将现同期少见低温:广东都扛不住
昨天(12月16日)开始,眼下这股寒潮天气大举南下,进入影响最强阶段。预计今明天,受强冷空气影响,我国南方部分地区将出现6~8℃降温,其中云南北部、福建东部等地的部分地区降温超过10℃...
日期:12-17
解决真问题构建新思维,猿辅导素养课助力孩子核心素养能力培养
随着现代科技的逐步发展,我们的生活也发生了翻天覆地的变化。纸币被电子货币替代,知识的背诵被搜索引擎和人工智能替代。很多知识也随着技术的进步变得无用。在此背景下,时代对...
日期:11-13
DDR5时代万年老二SK海力士翻身:128GB单条仅此一家_海力士ddr4 2133mhz怎么样
快科技6月20日消息,全球DRAM内存主要有三家公司竞争,分别是三星、SK海力士及美光,其中三星一家份额就在40-45%左右,SK海力士是万年老二,份额在25-28%左右,剩下留给美光大约20-25%...
日期:06-21
华为问界m5「华为辟谣全面接管问界销售体系 假的!不存在换签」
据报道,华为被指将全面接管问界销售体系。不过,华为方面证实,这一报道是不实新闻。微软为什么推出win11小米13手机发布会几月具体而言,有消息称,华为将全面接管问界销售体系,将问...
日期:10-26
小米14提前发:采用华星极窄边框直屏 颜值胜过iPhone 14 Pro
快科技6月16日消息,博主数码闲聊站透露,高通迭代平台骁龙8 Gen3进展很快,首批搭载高通骁龙8 Gen3的小米14会提前发布。除了搭载高通骁龙8 Gen3,小米14还将采用华星最新款极窄边...
日期:06-16
谷歌听力「谷歌研究团队宣布 AudioPaLM:一个能说能听的大型语言模型」
6月25日消息: 大型语言模型(LLMs)近几个月一直备受关注。作为人工智能领域最重要的进展之一,这些模型正在改变人机交互的方式。随着各行各业纷纷采用这些模型,它们成为人工智能...
日期:06-25
不怕被冻上!雷军:小米SU7用上半隐藏式门把手_小米门把手调换方向
快科技12月28日消息,在小米汽车技术发布会上,雷军预发布了品牌首车小米SU7,并对该车进行了部分详解。据了解,小米SU7的漆面来自于自然,包括海湾蓝、雅灰和橄榄绿,至于为何不做白色...
日期:12-28
ff法拉第未来融资新动态「FF推出法拉使命“Mission Farad”平台」
5月23日 消息:昨日,FaradayFuture(FF)宣布推出“Mission Farad”平台(“法拉使命”)。该平台基于Web3.0技术打造,将充分联合开发者、创造者、用户和投资者,实现价值共创和收益共...
日期:05-23
2022天猫双十一养猫活动入口在哪  双11养猫活动玩法及红包攻略「双11淘宝养猫活动」
今年双十一,天猫不玩盖楼了,改玩养猫游戏。通过玩这个游戏,用户可以领到不少红包优惠券福利。双11养猫活动入口:1、打开手机淘宝app,在首页即可看到“双11喵果总动员”活动入口,...
日期:10-28
百度地图上线「道路积水阻断」等功能「百度地图积水路段」
8月1日 消息:百度地图宣布联合各地交警实时上线「道路积水阻断」等权威交通信息。如必须出行可按照地图提示绕行躲避积水险情路段。如发现积水点可以在地图上报百度地图首页...
日期:08-01
ChatGPT 背后的大型语言模型 GPT-4 需要大量的冷却水: 5 到 50 个问题就需消耗 500 毫升的水
9月11日消息:建设像 ChatGPT 这样的人工智能产品的成本往往难以衡量。但微软支持的 OpenAI 的技术需要大量的水,这些水来自爱荷华州中部的 Raccoon 和 Des Moines 河流域,用于...
日期:09-11
小米12 Pro2599 小米12s Ultra旗舰仅4999「小米11pro ultra参数」
小米13将在下周发布,首发骁龙8 Gen2但是起售价已经涨到了4500元起,而现在小米12依然性能强劲,小米12作为主力机型有着不错的性能和价格,现在小米12促销幅度不亚于今年的双11,小米...
日期:12-02
拼多多在美国超级碗投放广告,花费几百万美元_拼多多航母广告
2月14日消息,今年美国超级碗比赛期间,电商拼多多旗下的美国购物应用Temu播出了一则广告,共花费几百万美元。中国电商花费几百万美元在美国“春晚”超级碗比赛期间投放广告并不...
日期:02-15
中国美丽休闲乡村名单公布:共255个 有你的家乡吗英语「中国美丽休闲乡村名单公布:共255个 有你的家乡吗?」
11月14日,农业农村部今天公布了中国美丽休闲乡村推介结果,持续推进农村一、二、三产业融合发展。pixel 3 XL经各省遴选推荐、专家评审和网上公示,推介北京市门头沟区妙峰山镇炭...
日期:11-15
2021京东数码节「成交额超去年11.11同期全程 京东数码11.11超级战报出炉」
来源:中关村在线10月31日晚8点,京东百亿补贴日火爆开启。自10月23日晚8点现货开卖以来,随着海量低价好物、趋势新品持续释放,京东11.11迎来多轮爆发。京东数码11.11超级战报显示...
日期:11-01
网宿主导的又一液冷标准正式发布,助推行业落地进程_液冷设计
行业发展,标准先行。12月20日,在以“算赋百业 网联未来”为主题的第二届算力网络与数字经济论坛上,由网宿科技及子公司绿色云图主导的《数据中心浸没式液冷系统单相冷却液技术...
日期:12-21
九代i3处理器_覆盖i3 Intel 9代酷睿新增6款桌面处理器!
  本届CES 2019主题演讲中,Intel首先端出的大菜便是第九代酷睿。   桌面方面,9代酷睿新增6款处理器,从而完成从Core i9到到Core i3的覆盖,满足普通用户到专业内容创作者和...
日期:02-22
悠可集团问鼎2021年天猫六星服务商,数字化精细运营服务能力获认可
  7月29日,天猫生态伙伴会议在上海成功举行。会上,天猫联合《哈佛商业评论》中文版公布了“2021年天猫星级服务商”榜单,悠可集团凭借专业的数字化精细运营服务能力和深刻的...
日期:03-19
浙江一老师凡尔赛全班成绩:仅3人没上600分 没忍住大笑「凡尔赛班主任」
随着今年全国高考成绩的陆续揭晓,表现出色的学校、班级和考生纷纷涌现在媒体镜头前。媒体视频显示,在浙江绍兴,海亮实验中学高三的李老师送出凡尔赛式”发言:班上3个没上600分,还...
日期:06-26
2023年全球卖得最好的10款手机,国产手机无一款上榜_2020年卖的最好的手机
近日,市场调研结构Canalys公布了2023年出货量前十的机型,这次国产手机又没有上榜,全球而言,国产手机还是和苹果、三星有很大差距的,就看华为回归之后能不能改变这种状态了。小米...
日期:02-09