您的位置:首页 > 互联网

OpenAI公布Sora技术报告:模拟世界、视频扩展等,强的离谱!

发布时间:2024-02-18 13:03:05  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

昨天,OpenAI发布的首个文生视频模型Sora,成功霸屏全球科技媒体头条,其逼真的细节、连贯的视频动作以及精准的文本语义还原令人咋舌。

不少媒体、科技大咖和影视导演指出,Sora的出现不仅一夜让深耕该领域的Runway、Pika、Stability.ai等头部企业黯然失色,就连影视行业都可能一起颠覆。

今天AIGC开放社区根据OpenAI公布的技术报告,为大家深度的解读一下Sora的技术原理,以及那些前所未有的超强视频功能。

报告地址:https://openai.com/research/video-generation-models-as-world-simulators

为什么其他模型,很难生成4秒以上的高质量视频

我们先思考一个非常重要的问题,文生视频领域的AI工具那么多,技术迭代也折腾了好几年,为什么无法像Sora那样,一次生成超过4秒甚至1分钟的高质量视频?

下面这个视频是昨天OpenAI公布的一个悬崖拍摄视频,我们将相同的提示词放在Runway的Gen-2中生成视频,并进行了详细的对比。

大家看到了,在彩色饱和度、通透度、视频运动轨迹速率、文本语义还原等方面,Sora是完全碾压Gen-2。

下面这个是刷爆全网的Sora生成中国龙的视频,同样与Gen-2做了对比依然完败,这样的例子还有很多。

限制Gen-2等产品生成高质量长视频的一个重要原因就是缺少——高质量训练数据。

文生视频模型需要大量的视频数据进行训练,包含各种场景、人物、动作、物品等,以帮助模型学习视频的生成规律和运动轨迹等重要元素。

目前公开的视频数据集,例如 Kinetics、HMDB51、Charades等,视频长度都比较短,一般只有几秒钟,并且搜集视频训练数据的难度是文本的好几倍,高质量数据更是难上加难。

大模型的根本原理就是通过模仿然后进行二次创新,所以,训练数据那么短,模型也很难模仿创作更长的视频。

昨天就有科技大咖指出,Sora可能使用了虚幻引擎5合成的游戏视频训练数据,从视频的色彩、细节来看这个判断是靠谱的。

这样看来OpenAI手里已经掌握了一批高质量视频训练数据,同时找到了新的高效数据合成方法。

此外,在训练方法、模型架构、算力需求等方面,Sora也进行了创新将ChatGPT、DALL·E3等模型融合在一起。

Sora可以模拟世界

由于Sora的技术原理比较枯燥,我们放在后面说,先从Sora的超强视频功能说起吧。

OpenAI发现,Sora在经过大规模训练后,会表现出许多有趣的新能力,能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现并没有对3D、物体等产生任何明确的归纳偏差,纯粹是规模现象。

3D一致性:Sora 可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在3D空间中的移动会保持一致。

长距离一致性和对象持久性,是生成高质量长视频的一个重大挑战。OpenAI表示,Sora 经常(并非总是)能够有效地模拟短距离和长距离依赖关系。例如,即使人、动物和物体被遮挡或离开画面,也能保持它们的存在。

此外,Sora还能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

与物理世界产生互动,Sora有时可以模拟一些影响世界状态的简单动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续;或者一个人在吃一个汉堡时,留下咬痕。

模拟数字世界:Sora还能模拟人工操作流程,例如,在游戏“我的世界中”,Sora 可以通过基本策略控制 游戏中的玩家,同时高保真地呈现世界环境以及动态。

OpenAI也指出了Sora模拟的局限性,例如,不能准确地模拟许多基本交互的物理现象,如玻璃碎裂,并不总能产生正确的物体状态变化。

但从更长远的角度来看,继续扩大Sora的训练数据规模,是开发物理、数字世界以及元宇宙的一种高效模拟手段,可以近乎真实地来还原物体、动物和人等。

视频连接功能

Sora 可以在两个输入视频之间逐步插值,并在主题、场景构成完全不同的视频之间创建无缝过渡。简单来说,就是Sora具备无缝视频剪辑连接,这对于影视行业来说帮助很大。

OpenAI在展示Sora的视频连接功能时,使用了三个20秒的案例:一个飞行的无人机,无缝变成了一只蝴蝶,然后场景切换到海底世界。整个流程非常丝滑,感觉就像人工剪辑的一样。

AIGC开放社区将这三个视频整合到了一起,大家可以感受一下。

扩展生成视频

Sora 还能向前或向后多个维度扩展视频。OpenAI举了3个视频案例,它们都是从一段生成的视频开始向后延伸的,所以,这3段视频的开头都与其他视频不同,但结尾都是一样。

视频剪辑

扩散模型为文本提示,编辑图像和视频提供了大量方法。于是,OpenAI将把其中一种方法 SDEdit32应用在了Sora。这使得 Sora 可以在0拍摄的情况下,转换输入视频的风格和环境。

例如,一辆在森林中飞奔的跑车,可以瞬间改成赛博朋克的视频画面。这个功能其实就是一键滤镜+环境修改。说起来很简单,但在技术层面相当有难度。

通过图像、视频进行生成提示

除了文本之外,Sora还能通过图像、视频的方式生成视频。例如,输入一张图像,一只戴着贝雷帽和黑色高领毛衣的柴犬,然后就能制作视频。

生成图像能力,

Sora是一个文生视频模型,但同样具备生成图像能力,这个创新属于业内第一家。

Sora可以生成不同大小,分辨率高达2048x2048的图像

马云说的新零售是什么

例如,充满活力的珊瑚礁,有色彩缤纷的鱼类和海洋生物

苹果树下有一只可爱的小老虎,哑光绘画数字风格,细节华丽

Sora技术原理以及“视频补丁”

说完了Sora一堆超强功能,我们唠唠它的技术原理。

衣服破了一个洞怎么办?通常的方法是打一个补丁,然后缝缝补补又穿3年。

同理,OpenAI从大语言模型ChatGPT领悟到了灵感:大模型可以生成各种细化文本内容,主要得益于精准的数据标记,统一了文本代码、数学和各种自然语言的不同模式。

既然大模型有文本标记,那Sora当然也可以有“视频补丁”啊。OpenAI发现,视频补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。

在较高维度上,OpenAI首先将视频压缩到低维潜在空间中,然后将其分解为时空补丁,从而将视频转化为补丁。

视频压缩网络:OpenAI训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。

Sora 在这个压缩的潜在空间中接受训练,并随后生成视频。同时还训练了相应的解码器模型,将生成的潜伏映射回像素空间。

时空潜伏斑块:给定一个压缩输入视频,OpenAI提取了一系列时空补丁作为转换标记。基于补丁的表示法,使 Sora 能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。

在推理时,可以通过在适当大小的网格中排列随机初始化的补丁,来控制生成视频的大小。

万豪集团henry lee

律师被ai取代

模型架构:Sora是一个扩散模型在给定输入噪声补丁,被训练来预测原始的“干净”补丁。此外,Sora 和ChatGPT一样使用了Transformer 架构,在语言建模、计算机视觉以及图像生成等方面非常优秀。

改善构图:OpenAI发现,在原始长宽比的视频上进行训练,可以极大改善构图和取景,并将 Sora 与所有训练视频裁剪成正方形的模型版本进行了比较,取景效果获得了极大的改善。

右图为Sora生成全景视频。

精准文本语义理解:训练视频模型需要大量,带有相应字幕的视频。OpenAI将DALL·E3的重新字幕技术引入到了Sora。首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。

OpenAI表示,在高度描述性的视频字幕上进行训练,可提高文本的保真度以及视频的整体质量。

与 DALL-E3一样,OpenAI也通过 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够精准地还原用户的文本提示,生成高质量的长视频。

从这份技术报告来看,Sora更像是OpenAI的技术大集合,使用到了很多ChatGPT、DALL·E3以及之前积累的技术沉淀,也是Sora能呈现出那么多超强视频技术的原因。

让我们一起期待Sora公测、开放API的那一天吧,万一开源了呢~


返回网站首页

本文评论
Epic面临超400万美元赔偿金-Epic不敌苹果,美法院认定苹果不存在垄断_epic平台价格是美元
4月25日消息,今天,Epic针对苹果垄断的上诉宣告失败,上诉法院维持原判,认为苹果不存在违反反垄断法的行为。这意味着,这场最早开始于2020年的漫长纠纷,暂时告一段落。在2020年,由于E...
日期:10-01
“AI”被柯林斯词典评选为2023年最受关注的词汇_柯林斯在线词典官网
划重点:1. "AI"成为2023年柯林斯词典评选的年度词汇,因其在过去一年中的使用频率翻了四倍。2. 除了“AI”,其他入选的新词汇包括“greedflation”、“nepo baby”和“deinflue...
日期:11-01
Redmi K70 Pro搭载第二代高端2K中国屏 4000尼特亮度!_红米k7参数
【手机中国新闻】11月27日,手机中国注意到,Redmi官方正式宣布:K70 Pro 搭载第二代高端 2K 中国屏,三大硬实力全面突破,峰值亮度再攀巅峰,医工融合,划时代的护眼解决方案,体验全面进...
日期:11-27
康辉被调侃为“天选打工人”:连上六天班、领带惹眼
最近,有热心网友发现,从12月17日到12月22日,《新闻联播》的男主播一直都是康辉,没有变过。字节跳动打败腾讯不少网友纷纷调侃,康辉这真的是天选打工人,鼓出来的腮帮子里藏的都是药...
日期:12-25
ios侧载应用「iOS 17.4正式版官宣:苹果开放侧载时代来了」
快科技2月5日消息,苹果官方宣布,iOS 17.4正式版将于3月份上线。数智化财务创新该版本最大变化是支持侧载,这一功能仅限欧盟,覆盖欧盟27个国家或地区的iPhone用户。据悉,iOS 17.4...
日期:02-05
杰克辣条再开直播虐猫?人民网怒批:处刑式虐猫可憎 向人类良知挑战
近日,有网友称,杰克辣条再度开直播虐猫,这引起了不少人的吐槽,特别是那些爱猫人士的。随后人民网发文称,杰克辣条有没有再度开直播虐猫,尚需求证。而仅凭他之前处刑式虐猫”就已臭...
日期:05-09
中企信办获打假网副理事长单位 提醒企业注意三点变化
  新浪网1月4日发文,北京中企信办信息管理中心(中企信办)荣获全国打假网副理事长单位。称双方将在监督规范市场营商环境上展开进一步合作,不仅要为消费者提供放心的消费...
日期:09-05
高考钉子户梁实简历「第27次参加!高考钉子户梁实愁眉苦脸出考场 直言考得不好」
第27次参加高考的梁实,看来靠的并不理想(第一天)。6月7日,四川成都2023高考第一天,高考钉子户梁实愁眉苦脸走出考场。梁实称:数学考得不好,前面选择填空感觉还可以。iPhone 5c正式...
日期:06-08
佰维存储公司怎么样?「创新存储赋能智慧安防——佰维邀您莅临2023北京安博会」
6 月 7 日- 10 日,为期 4 天的第十六届(2023)中国国际社会公共安全产品博览会(简称:安博会)将在北京首钢会展中心隆重举行,佰维将亮相安博会并重点展示数据采集盘、轨道交通存...
日期:05-25
研究人员对AI工具进行评估 以确定哪些药物更有可能产生副作用_人工智能在药物研发中可以进行新药安全有效性预测
根据一项新研究,人工智能可能会帮助医生确定个人是否有可能从广泛使用的抗抑郁药、抗组胺药和膀胱药物中产生不良反应。在埃克塞特大学和肯特和梅德韦国家医疗服务系统和社会...
日期:10-05
NB-IoT如何抢占智慧消防高地
  1月4日,河南兰考县城一居民楼失火,在爱心妈妈收养的孩童中,7人不幸丧生;   3月3日,贵州遵义烧烤店厨师外出时,炉灶上放置的油锅起火,7人不幸遇难;   6月11日,云南省大理镇...
日期:08-18
英伟达2020年市值「英伟达股价连创历史新高 市值涨超1万亿元」
【网易科技1月11日报道】2024年国际消费电子展期间,英伟达发布多款新品,其中包括RTX 4080 Super、RTX 4070 Ti Super和RTX 4070 Super三款GPU。在CES展热潮推动下,英伟达连续第...
日期:01-12
永辉超市到家业务「永辉披露到家业务新进展:“仓店合一”模式开启多城试点」
  讯 9月26日晚间消息,永辉超市近日召开2022年半年度线上业绩说明会。会上,永辉超市CEO李松峰表示:“永辉上半年到家业务亏损率已从原来的7.9%下降到1.6%,线上占比持续提高,盈...
日期:09-27
Vue开发者指南:2019你最需要学些什么?(vue新手项目)
  作为 Vue 的初学者,您或许已经听过很多关于它的专业术语了,例如:单页面应用程序、异步组件、服务器端呈现等,您可能还听过和Vue经常一起被提到的工具和库,如Vuex、Webpack、...
日期:10-08
祈福游、古镇游、家庭游 百度地图2020年春运出行预测报告解锁春节国内游新玩法
  春运车票的开售,让人真真儿的感受到了春节将至的气息。除了返乡探亲,春节长假也是观光旅游的大好时机,而最经济划算的还属国内游,看山看水,还避免了老人小孩儿受长途跋涉之...
日期:01-24
京东商城家庭影院「京东家影发布2023年度好物榜单 引领家庭影音消费趋势」
(原标题:京东家影发布2023年度好物榜单 引领家庭影音消费趋势) 京东家影于近日官方发布了2023影音年度好物榜单,据悉本次的榜单...
日期:01-25
阿里分拆后首份财报:Q1净利润343亿元 淘天收入增长12%「阿里财报2021 q4」
凤凰网科技讯 8月10日消息,阿里巴巴公布截止2023年6月30日的2024财年一季度业绩,财报数据显示,阿里巴巴第一财季营收2341.6亿元人民币,同比上涨14%,超市场预期的2237.5亿元;调整后...
日期:08-11
dna存储,开启数据新时代「全国首个DNA存储领域预训练大模型“ChatDNA”发布」
5月22日 消息:据上海人工智能研究院消息,5月21日,2023祥符创新论坛转化医学产业高峰论坛在浙江嘉善举办。真正的4k投影仪在会上,上海人工智能研究院、祥符实验室、转化医学国家...
日期:05-22
联想推出YOGA S740移动超能版:10nm i5+MX 250(联想YOGA S730)
  12月22日消息 今年9月份,联想YOGA召开发布会,首先推出了YOGA C740翻转本,现在YOGA S740也开启预约了,搭载了10nm i5处理器,打上了英特尔酷睿移动超能版的标识。i5-1035G1+8G...
日期:11-24
OPPO Find X7 Pro工程机泄露:首次采用八卦阵镜头设计
快科技12月5日消息,OPPO Find X7 Pro工程机在社交平台上被泄露,这款旗舰采用了罕见的八卦阵镜头设计,一共有4颗摄像头,其中有两颗是潜望长焦镜头。这是OPPO Find X系列史上第一...
日期:12-05