您的位置:首页 > 互联网

sor3是谁「Sora三巨头首次解密幕后信息,CTO:最快年内开放」

发布时间:2024-03-25 10:37:38  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 栗子 ,授权转载发布。

“Sora最快今年内开放公测。”

在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。

短短10分钟里,Sora技术细节、进展、规划等当下最热议的问题,都有了更进一步解答:

  • 生成20秒的720P视频只需几分钟

  • 计算资源远超ChatGPT和DALL·E

  • 目前正在进行正在进行红队测试

  • 未来版本有望支持视频声效

而且还向外界传递了一层重要信息:

OpenAI在考虑发布这项技术时,抱有非常谨慎的态度。

“我们希望电影界人士和世界各地的创作者都能参与进来,与我们共同探索如何进一步推动这些行业发展。”

加上前几天,Sora的三名研发主管——Tim Brooks、William Peebles和Aditya Ramesh,也参与了一场16分钟的播客访谈。

综合两场对话,关于Sora背后的秘密,也有了更多蛛丝马迹可以探寻。

Sora背后还有多少秘密?

关于Sora,人们最关心也最期待的,可能就是什么时候才能上手体验了。

对此,Mira表示Sora正在进行红队测试,以确保工具的安全性,并且不会产生偏见或其他有害问题。

对于具体的时间,Mira也立下了flag——今年年内让Sora与广大用户正式见面。

此外,两场对话中谈到的其他话题,可以分为技术细节、项目规划和未来展望三个部分。

揭开更多技术细节

技术方面,三人团队表示,Sora更像是介于Dall·E这类扩散模型和GPT之间。

训练方式类似于Dall·E,但架构上更像GPT系列。

训练数据是不方便说滴(doge),大致就是公开数据和OpenAI已获授权的数据。

不过他们专门cue了一个点:通常图像、视频模型都是在一个固定尺寸上进行训练,而Sora使用了不同时长、比例和清晰度的视频。

具体方法之前的技术报告已经有了说明,就是用“Patches”来统一不同的视觉数据表现形式。

然后可以根据输入视频的大小,训练模型认识不同数量的小块。通过这种方式,模型能够更加灵活学习各种数据,同时也能生成不同分辨率和尺寸的内容。

性能方面,Mira和三人组的说法则略有不同:

三人组透露,有一次给Sora布置好任务后,出去买了杯咖啡,结果回来之后视频还没做好。

而Mira这边的回答则是,Sora生成720P分辨率、长达20秒的视频内容,只需要几分钟就能完成。

当然,具体消耗的时间,还要取决于任务复杂程度等多种因素,不能简单一概而论。

不过Mira这边表示,在正式发布之前将继续努力优化算法,以降低所需的算力。

sora ti3

这些问题还需解决

而针对Sora存在的不足,他们的回答也很坦诚,表示其还存在无法完美处理手部的生成,渲染复杂的物理过程也存在一定难度等一系列问题。

除了这些bug型的缺陷之外,Sora不能给视频添加声音也算一个美中不足之处,对此三人组给出了这样的回应:

很难确定什么时候能有这样的功能,但这并非一个技术问题,而是目前有优先级更高的问题需要解决。

目前,Sora还是更关注视频本身的生成,研究重点是提高视频的画质和帧率。

所以,能够加入声音当然是更好的,但现在的当务之急,还是要把视频能力先搞上来。

而Mira对此的回答则更像是给人们吃了一颗定心丸——未来版本有望支持视频声效,增强用户体验。

而除了这些产品本身的问题之外,为Sora生成的视频加入溯源信息,以防出现造假,也是OpenAI当下的一项重要任务。

同时,负责人和Mira都表示,团队始终在收集来自各界的用户反馈,三人组还举例说有用户希望能加入提示词以外,更精细、直接的控制方式,团队将此作为了重点考虑的一个方向。

Sora,未来可期

最后,针对Sora的未来,负责人给出了很高的预期,并表示其将不仅仅在视频创作方面发挥作用。

比特币强势上涨破新高

水循环示意图

我们的世界充满了视觉信息,其中有很多无法仅通过文本来传达。

所以,虽然像GPT这样的语言模型已经对世界有了深刻的理解,但如果它们无法像人类一样“看”到视觉的世界,对世界的认识就会有所缺失。

因此,负责人对Sora及未来可能在其基础上开发的其他AI模型充满了期待——通过学习视觉信息的方式理解这个世界,在未来能够更好地帮助人类。

对此有网友表示,这的确是个好消息,Sora的意义不仅在于其本身,而且还会对其他AI产生影响。

另一边,已经有人在期待Runway等前任王者对此的反应了。

不过,虽然团队自己说Sora在未来能够理解人类世界,但它到底能不能真的算世界模型,还存在不小的争议。

Sora是世界模型吗?

针对这个问题,正反双方各执一词,支持者的主要理由,是认为从Sora生成的视频中能看出其对物理世界的理解。

而反方则不认同Sora是世界模型,代表人物是图灵奖得主、Meta首席AI科学家LeCun。

近期,LeCun点赞了一篇澳大利亚学者的万字长文,文章的核心观点就是认为Sora不是世界模型。

sora是谁

其中最核心的原因,是Sora并没有物理引擎来运行前向时间模拟,而且训练过程是端到端完成的,数据中并没有物理规律信息。

即便是抛开训练和生成过程,单从表现上看,Sora的输出也出现了违反重力、碰撞动力学等物理规律的情况。

△Sora生成的“反重力玻璃杯”

所以,作者认为,将Sora称为世界模型是缺少充分依据的。

而人们比较关心的另一个问题,是Sora的训练过程,是否使用了虚幻引擎(Unreal Engine)5。

不过作者也没有给出确切结论,只表示这只是猜测,目前并没有确切的证据表明Sora确实使用了UE5进行训练。

而要想进一步揭开这些问题,或许要OpenAI再次自己出来公布,或者直接开源了。

One More Thing

虽然两场访谈的确透露出了不少干货,但针对人们同样广为关心的训练数据来源问题,无论是三人团队还是Mira,说法都十分模糊——

Sora的训练过程中使用的是公开可用和已获得授权的数据源。

但对于YouTube、Instagram和Facebook上的视频是否被用作训练数据,Mira则是顾左右而言他:

我不知道,但如果这些数据是公开可用的,他们也许是(训练)数据(的一部分)……我不确定

不过,这个说法的可信度先放下不谈,即便真的如Mira所说,也有网友并不认账:

OpenAI好像觉得,只要是公开的数据就可以随便用,呵呵

参考链接:

[1]https://www.youtube.com/watch?v=Srh1lut4Q2A(第53分钟开始)

[2]https://www.youtube.com/watch?v=mAUpxN-EIgU

[3]https://artificialcognition.net/posts/video-generation-world-simulators/

—完—


返回网站首页

本文评论
谷歌搜索引擎下载「谷歌搜索下线快照,互联网似乎真的要没有记忆了」
声明:本文来自于微信公众号 三易生活(ID:IT-3eLife),作者:三易菌,授权转载发布。刻在石头上的碑文会风化、写在纸上的文字会腐朽,数千年以来,如何保存知识始终是人类文明的一大关键...
日期:02-13
AMD自己泄密:未来两大GPU定了!「amd完爆intel」
AMD已经发布了RX 7900系列显卡,包括两个版本RX 7900 XTX、RX 7900 XT,都基于RDNA3架构的Navi 31大核心。它首次采用小芯片设计,包括一个台积电5nm工艺制造的GCD、六个台积电6nm...
日期:11-28
周鸿祎教俞敏洪 新东方怎么用好GPT
【】5月8日消息,7日晚间,360集团创始人周鸿祎先后作客新东方创始人俞敏洪抖音直播间和东方甄选抖音直播间,销售其名下两本书——《超越好奇》《数字安全网络战》。期间,周鸿祎与...
日期:09-30
快手直播专项治理恶俗炒作 严禁四大类行为「快手 整治」
9月28日 消息:今日,快手电商发布了快手直播关于恶俗炒作专项治理公告,重点治理方向包括禁止演绎涉嫌违法违规的情节等四大行为。公告称,一直以来,快手致力于构建积极正向、健康...
日期:10-01
曝华为nova 11系列本月发:把P60上的卫星通信功能下放了_华为卫星通信手机
快科技4月8日消息,博主厂长是关同学透露,华为nova 11系列会在本月发布,传闻发布时间是4月17日。本次发布会将会推出nova 11、nova 11 Pro等机型,根据曝光的渲染图,nova 11系列采...
日期:04-09
联想网站展示基于第十代ThinkPad X1 Carbon打造的30周年纪念版_thinkpad x1第一代
五年前,联想以ThinkPad 25庆祝其ThinkPad品牌成立25周年,这是一款特别版的ThinkPad,采用经典的IBM风格键盘。又是五年过去,联想正在推出另一款纪念版的ThinkPad,需要注意的是这款...
日期:10-01
阿里通信云「阿里云大模型“通义千问”将于4月11日发布」
4月10日 消息:今日,阿里云官方宣布将在4月11日召开的2023阿里云峰会上,带来“通义千问”相关的重磅消息。雷克萨斯rx 300与奔驰glc300比较根据官方公布的预热海报显示," 通义千...
日期:04-11
中信出版社入驻豆丁网 出版业数字阅读业务迅猛提速_中信阅读事业部
  最新消息,日前国内大型的版权机构中信出版社与全球最大的中文社会化阅读平台豆丁网(www.docin.com)达成了战略合作,共同在图书数字发行方面展开了深度探索。现阶段,中信出...
日期:07-22
新东方董宇辉微博「东方甄选将董宇辉商标转让给与辉同行」
3月8日 消息:天眼查数据显示,东方甄选所关联的东方优选(北京)科技有限公司已经完成了多项“董宇辉”图文商标的转让工作。这些商标已被转让给与辉同行(北京)科技有限公司,其国际...
日期:03-08
极致高端诠释奢华智能腕表新定义,华为首款黄金智能手表致敬非凡精神
在2023年9月25日华为秋季全场景新品发布会上,华为正式推出全新超高端品牌“ULTIMATE DESIGN非凡大师”,并发布了该品牌下首款黄金智能腕表——华为WATCH ULTIMATE DESIGN非凡...
日期:09-26
Adobe或因其取消订阅规则存在违规面临巨额罚款_adobe取消自动续费
**划重点:**QQ影像下载1. Adobe在Q4和2023财年的业绩强劲,但美国联邦贸易委员会(FTC)正在调查其订阅取消做法,可能导致巨额罚款。2. FTC关注Adobe是否违反《恢复在线购物者信心...
日期:12-14
树立智能制造新典范 | 浪潮新一代通信赋能京东方智慧工厂_京东方智慧系统创新中心
通信世界网消息(CWW)作为半导体显示产业的领军企业,京东方以其卓越的技术创新和产业领导地位而享誉全球。在第五代TFT-LCD生产线的建设过程中,浪潮通信技术携手京东方,通过运用先...
日期:02-20
13代酷睿 7nm「出厂6GHz频率成了!Intel官宣13代酷睿限量版」
曾经,我们一味追求处理器的高频率;后来,我们不断增加核心数量;现在,多核心、高频率也可以兼得了!对于改良版的Intel 7制造工艺、全新的CPU架构,Intel Raptor Lake 13代酷睿的频率得...
日期:09-28
英伟达超算中心「微软为ChatGPT打造专用超算!砸几亿美元,上万张英伟达A100打造」
萧箫 发自 凹非寺量子位 | 公众号 QbitAI华为mate 40pro 的价格微软砸下大几亿美元,专门为训练ChatGPT打造了一台超算——上万张英伟达A100芯片打造,甚至专门为此调整了服务器...
日期:03-15
B站国创动画发布会今晚开启:《三体》动画或正式定档_三体动画什么时候上线
根据B站官方消息,2022-2023 B站国创动画发布会将于今晚19:00正式开启,届时将公布新一批国创动漫的新消息。其中最受期待的就是国产科幻神作《三体》动画了,这是由国内艺画开天...
日期:11-04
高德地图怎么查看北斗卫星「高德地图上线北斗卫星定位查询系统」
11月17日消息,近日,高德地图上线了北斗卫星定位查询系统,用户在定位导航时可查看当前所调用的北斗卫星数量,以及具体编号、方位角、高度角、频点、信号强度相关详细信息。除此之...
日期:11-28
跌停!浪潮信息预计上半年归母净利润同比下降60%~70%_浪潮信息股票
通信世界网消息(CWW)7月12日,自下午开始AI概念持续下挫,算力、CPO方向领跌。其中,浪潮信息今日跌停,据了解,这是浪潮信息今年以来的第三次跌停。截至收盘,报41.20元,成交额87.61亿元,...
日期:07-12
Pro+蓄势待发 潜望长焦卷王_真我12_真我大师探索版长焦
来源:中关村在线苹果ios14carplay在哪云业务带来新价值 迅雷连续七季度营收增长airpods pro降噪和通透有电流声新能源电池成本下降近日,真我手机官方微博预告了即将发布的12 P...
日期:01-07
飞猪:今年国庆周边游订单量较春节增超80% 云旅游成热门选项_飞猪旅行网市场规模
10月8日 消息:近日,飞猪发布国庆旅游消费观察报告。数据显示,今年国庆周边游订单量较春节增超80%,其中,云旅游成为本地旅游消费的热门选项之一。旅游方式上,私密安全且时间自由的...
日期:10-14
ai语音开发「Speaking AI体验入口地址 AI语音生成软件推荐」
Speaking AI 是一个语音合成工具。它使用了最新的人工智能技术,可以生成高质量的语音。Speaking AI的体验下载入口在哪呢,这里我们来看下Speaking AI的官方体验入口。>>>点击...
日期:01-16