您的位置:首页 > 互联网

炸场的Sora和冷静的同行

发布时间:2024-03-06 14:29:40  来源:互联网     背景:

声明:本文来自微信公众号“新莓daybreak”(ID:new-daybreak),作者:yuanyuan,授权转载发布。

Sora面世半个多月,这个深水炸弹的后续效应依然强烈。

Open AI 发布的这个文生视频模型,紧跟着 Google 发布 Gemini1.5的消息,让支持百万级 token 的 Gemini 黯然失色,帮助OpenAI在科技圈成功抢 C,一跃成为视频模型届的 GPT3.5时刻。

毕竟,当Runway、Pika 等同类视频模型的创作上限还在10秒左右时,Sora 已经能够生成60秒的精致视频,可以一镜到底、切换视角,无论是背景还是主人公的表情,都拥有丰富的细节。关于Sora是否会杀死剪映的舆论甚嚣尘上。

目前 Sora 还没有对公众开放,但昨天,已经有创作者拿到了测试资格,并发布了自己尝试的三个视频。

苹果备忘录修复

在测评电子产品的年轻人这个视频中,光影细腻,人物和置景真实,美中不足的是他的右手有六根手指。此外,Sora 在理解物理时会遇到困难,特别是在腿部/行走方面。在 Sora 生成的小狗行走视频中,腿部经常交叉并合并在一起。

虽然 OpenAI 发布了 Sora 的技术报告,但其中并未涉及技术细节。

我们能知道的是,Sora 又是一次 OpenAI 式的典型胜利,是技术选型、训练数据、资源优化等各个环节的细节优化,组合成了一次效果超出预期的质变。就像 Sam Altman 之前解释为什么 GPT 会比其他的大模型更好,是因为 OpenAI 堆了一百万个小技巧。

去年年初,ChatGPT 发布后,海内外大厂争先恐后地发布文本大模型,热闹非凡,生怕落队;这次 Sora 发布后,只有海外版剪映、Stability AI 跟进发布了文生视频产品的测试版。

其他公司也许是暗中跟进,或是谨慎观望,除了网红李一舟蹭蹭热点,还没有谁站出来敢说,要做中国版Sora。

追,还是不追?

ChatGPT 发布后,大公司和初创企业纷纷加入百模大战;现在 Sora 已经发布半个多月了,此前的盛况没有再次出现。

一周之后,Stability AI 开放了Stable Video的公测,但或许是服务器爆满的缘故,功能不够稳定。生成的视频最值得称道的是清晰度,但仍然没有大幅度的视角切换,画面主体也没有太多动作,只有背景动了起来,给人的感觉仍然是会动的图片。

字节剪映海外版也上线了文生视频的功能,同样反响不佳,主要是因为等待的时间过长。网友测试发现,一个视频的生成要等待1800分钟。

有人工智能算法工程师分析,同等参数的视频模型,比大语言模型所需要的算力要多几十倍。业界流传,Sora 的参数规模在10B 到30B 之间,其所需的算力或许与千亿级的大语言模型差不多。

有趣的是,腾讯和阿里巴巴虽然没有跟进视频模型的发布,却纷纷第一时间在自己的技术账号上发布了对 Sora 的技术拆解;其中,阿里巴巴达摩院所发布的文章题目叫做《复刻 Sora 有多难?》,并在文末表示,我们期待视频生成领域的 LLaMa ,以及更加普惠的开源视频生成技术。

AI 初创企业 Hugging Face 认为,视频模型的三大挑战是算力、数据、指令模糊性。要想做到物体和空间的一致性,往往伴随着高昂的计算成本;高质量的视觉数据集也比文本的更为稀缺。此外,生产让模型更容易理解视频的 Prompt,会比语言模型、文生图模型难度更大。

此外,Sora 是一个凭借直觉和概率驱动的模型,而不是靠精确计算的公式驱动的模型。有人总结道,Sora 可以像一个普通人一样,通过直觉去理解物理世界,也能解决很多问题,但它没有办法像物理学家一样造出火箭这种东西。

无论如何,Sora 跟 GPT3.5一样,验证了技术方向的可行性,视频模型的性能未来会随着参数量、数据大小和计算量的增加而提高。

又一次降维打击?

硅谷投资机构 a16z 统计,截止去年年底,市面上共有21个公开的视频模型,其中包括 Runway、Pika、Stable Video Diffusion 等等。

然而,第一个出圈的还是 Sora,核心依然是它远超预期的效果。以往几秒钟的 AI 视频,给人的感觉还是会动的图片,而 Sora 则展现了对真实世界的理解力和还原力,还有对虚拟场景的充沛想象力。

Sora 官网发布的几十个视频 Demo 中,有在东京街头散步的女人、在咖啡杯里航行的海盗船、在雪原上走过的猛犸、无人机视角拍摄的海浪拍打峭壁、华丽的纸艺海底世界、维多利亚冠鸽的微距特写,其视频主体和环境的一致性令人震撼。咖啡杯里航行的海盗船这个 Demo 里,水面的波纹、船的运动轨迹,很好地遵循了现实世界的物理规律。

阿里巴巴达摩院的分析认为,Sora 的智能涌现,体现在它的三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。

虽然 Sora 对复杂的物理预测还显得力不从心——比如,一个人咬了一口饼干,但饼干上并没有出现咬痕,但许多从业者认为,这是 AI 真正理解世界的开端,随着模型能力的持续提升,它对物理世界的理解和还原会更加准确。

小米civi几个颜色

显卡闪退要降频才能玩

此外,OpenAI 不仅公布了 Demo 视频,同时公布了每一个 Sora 生成视频的指令,方便大家尝试其他产品后,对比效果。

尽管外界担心其他文生视频初创企业的命运,但创始人们表现出的兴奋却远远大过恐惧。

Runway CEO Cristóbal 感慨技术进步的速度,过去需要以年计算的技术进步,现在压缩到了月的维度,他预测技术将会更快地进化,每天、甚至每个小时,都可以涌现出新的技术实现。Pika 创始人郭文景也在媒体采访中表示,(Sora)是一个振奋人心的消息,我们准备直接冲,将直接对标Sora。

去年8月,OpenAI 对外披露了首次收购行为。

被收购公司 Global Illumination,开发了一款名为 Biomes 的开源大型多人在线沙盒游戏,类似于浏览器上运行的《我的世界》。当时就有人指出,借助开放式游戏中玩家的交互,OpenAI 通过这次收购,能为 AGI 构建真正的数据集;也有人猜测,OpenAI 将会推出游戏或视频模型产品。

从 Sora 的效果看,或许这次收购的确对 Sora 的训练数据优化有一些帮助。

世界模拟器?

Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。OpenAI 在技术报告的最后写道。

ChatGPT 是思维世界的模拟器,Sora 是物理世界的模拟器,出门问问 CEO 李志飞评论,OpenAI 的科学家们果然一直有着创世的冲动。

电动牙刷意义

有技术人员猜测,Sora之所以具备强大的能力,得益于模型和数据。

首先,与 Runway、Pika 的技术路线不同,Sora 使用了基于 Transformer 的扩散模型(Diffusion Model),可以通过自注意力机制(Self-attention)来学习视频数据中各个元素块之间的关系,并模拟数据的扩散过程,生成高质量的视频输出。

其次,Sora 能将不同类型的视觉数据,转化成统一的视觉补丁(Patch)。Patch 之于 Sora,就像 token 之于 ChatGPT。ChatGPT 把各种语言、编程代码都切分为 token,Sora 把图片、视频都切割为 patch。

OpenAI 认为,将视觉数据统一处理,将带来两点好处:首先是采样的灵活性,通过统一的数据表示,Sora 可以灵活处理不同宽高比的视频内容。其次是更好的构图效果。在原始宽高比的视觉数据上进行训练,Sora 可以更好地学习和理解构图,使得生成的内容更符合人类的视觉习惯和审美标准。

如同 ChatGPT 在专业领域的能力,还比不过详细定义规则的小模型一样,Sora 虽然对物理世界有一定理解,并拥有更强大的泛化能力,但它与此前的物理仿真模拟相比,预测价值仍然有限。

比如,物理仿真模型可以预测汽车在相撞时的反弹效果和形变,但 Sora 无法发挥这样的作用。OpenAI 官网发布的 Demo 也表现出,Sora 无法很好地模拟玻璃杯破碎时的动态,混淆了玻璃破碎和液体溢出的顺序,倒下的玻璃杯甚至与桌面融为一体。

英伟达的研究人员Jim Fan认为,这有两种可能的解释:一是模型之所以犯这样的错误,是因为它根本不学习物理,只是简单地缝合像素;二是模型实现了一个内部的物理引擎,但这个引擎还不够好,就像 Unreal Engine v1在流体和可变形物体等物理模拟方面比 v5要差得多,渲染效果也差得多,并且不符合物理规律。他本人更倾向于第二种解释。

但模型能力的提升是可预见的,因为人类生产视觉数据的速度前所未有地加速了:全世界遍布摄像头,每人每天都在用智能手机采集这个世界。这将成为模型理解世界的通路。此外,UE5也可以模拟多角度的高清视频,让模拟出来的视觉数据更加优质。

从 Sora 中我们不难看出,头部玩家 OpenAI 的思路是集中力量办大事:专注提高模型的能力,只进行轻度的产品化。毕竟,能生产60s 视频的模型,要比添加了很多细碎功能、复杂按钮的视频产品震撼多了。此外,谁也无法预测模型智能程度的提升曲线,产品设计的节奏很可能追不上模型进步的速度。

当下对于大模型公司来说,模型能力才是最好的增长手段。不仅SLG(Sale-lead growth)显得过于原始,甚至PLG(Product-lead growth)也有些过时,我们正在迎来一个MLG(Model-lead growth)的时代。


返回网站首页

本文评论
女孩子一年要花多少钱「女孩知道一年学费5万哭成泪人 母亲的回答让网友点赞」
据青岛交通广播FM897报道,2月17日,山东青岛一位女孩一直以为自己学校的学费并不高,但当天打车时司机告诉她,这所私立学校的学费大概是一年五万,这让她大惊失色,回家乘坐电梯时,她已...
日期:02-22
亚运会中国队英雄联盟视频「让一追二!《英雄联盟》亚运会中国队战胜越南队:收获铜牌」
9月29日消息,今日下午,杭州亚运会电子竞技英雄联盟项目迎来季军赛,中国队在先失一局的情况,让一追二,成功战胜越南队,获得铜牌。在第二局比赛中,中国队选择更换打野选手,由jiejie更...
日期:09-30
全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容「全球的网站」
9月2日消息:根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。在缺乏明确法律或监管规定管理 AI...
日期:09-03
运营商财经网康钊:印度又开始自吹将全球第三
运营商财经 康钊/文近日,印度莫迪在美国国会发表演讲时表示,“当我作为总理第一次访问美国时,印度是世界第十大经济体。今天,印度是第五大经济体。我们很快就会成为第三大经济体...
日期:06-24
小米 13.3「小米13 Pro首降400元!雷军:现在买非常合算 各种配置全拉满了」
快科技6月1日消息,昨晚20点618第一波已经正式开始了,各家的价格大战也已经开始。今天一大早,雷军就发文推荐小米13 Pro,这次是该机首次降价,有400元的优惠,雷军称现在买非常合算,各...
日期:06-01
Intel推出Aurora genAI大模型 将应用于科学计算领域
5月23日 消息:Intel推出了Aurora genAI大模型,具有1万亿的参数量。Aurora genAI模型主要用于科学计算领域,包括生物学、癌症、大气科学、天文学、高分子化学等多个领域。Auror...
日期:05-23
Intel下下下下代至强曝光:革命性的PCIe 6.0第一次落地
桌面上,Intel早早就公布了Meteor Lakke 14代酷睿、Arrow Lake 15代酷睿、Lunar Lake 16代酷睿、Nova Lake 17代酷睿美国对中国芯片的限制,最新进展在服务器数据中心,Intel可扩...
日期:10-15
顺网科技云电脑产品发布 瞄准5G互动娱乐新生态(顺网云主机)
  6月25日,顺网科技正式发布顺网云电脑及云游戏解决方案,顺网科技副董事长励怡青表示,顺网科技要链接产业上下游,以务实姿态走向5G首轮应用,引领互娱行业新生态的建立。   ...
日期:04-19
李想:未来5年理想汽车不做20万以下车型 没必要分散精力
快科技2月26日消息,今日,理想汽车发布2023年第四季度及全年财报。在随后的业绩电话会上,理想汽车CEO李想表示,未来5年,理想不会做20万元以下的车型。小米11维修政策他预计,到2030...
日期:02-27
见证变美的每一天|FITURE魔镜伴你成长_FITURE魔镜
  新时代的女性,更独立,更自信,更懂得爱自己,在家庭和职场中都扮演者更重要的角色。而面对来自工作、家庭、生活琐事多方重压,越来越多的女性们都选择运动作为高效缓解焦虑的...
日期:07-16
北京今起整治机票黑代理 8成投诉来自网购(黑猫投诉退机票)
  返乡出游旺季将至,机票打折信息漫天飞。市工商局宣布,自即日起至2月底,在全市范围内开展“红盾护航行动”,对航空机票销售代理行业进行集中整治。相关负责人表示,对存在严重...
日期:07-25
公司正在修复,X网站2014年前的推特图片因“bug”消失「推特http」
8 月 22 日消息,本周末,许多 X 网站(原推特)的用户发现,早期的推特图片神秘地从网站上消失了。特斯拉车主上海车展现在该公司证实,这是由于一个未说明的“bug”造成的,并且正在努力...
日期:09-17
起诉京东方专利侵权后:三星决定将向韩企免费授权「京东方供货三星」
快科技7月11日讯,本周二,韩国相关部门表示,三星电子将进一步免费开放123种专利技术,涉及半导体、显示和移动设备等,服务本土的86家小型企业,以促进其快速增长。据悉,韩国于2013年启...
日期:07-12
扎克伯格吐槽苹果欧洲新规:认为开放只是一个幌子_扎克伯格开丰田
2月2日 消息:在最近的一次财报电话会议上,Meta的CEO马克·扎克伯格谈到了苹果的新政策,他认为苹果的开放举措只是一个幌子,实际上与欧盟法规的初衷背道而驰。他表示,很难有开发...
日期:02-02
悬赏千万的狗已找到 主人给了5000半天就已找到「悬赏找狗后不给钱怎么办」
7 月 9 日,一张“寻狗悬赏 1000 万人民币”的寻狗启示引起网友广泛关注。寻狗启示显示,名叫天狼的 8 岁公犬于 7 月 8 日晚上 11 点左右,在郑州北龙湖南河边走失,提供有效线索者...
日期:07-10
Keyframer官网体验入口 苹果AI动画生成工具免费在线使用地址_keyframes transform
Keyframer是一个由Apple研发的基于大语言模型的动画生成工具原型。它可以通过文本描述,自动为SVG图像添加动画效果并转换为CSS代码。用户无需编程经验,就可以简单上传图像、输...
日期:02-19
回馈“家”人 居然之家21周年“家居周”活动温情上线_居然之家22周年庆
  年中的热播剧《二十不惑》火遍了大江南北,诚然,20岁是个经久不衰的热门话题。如今的居然之家已然跨过20岁这个门槛,踏向“三十而立”。8月15日至23日,居然之家在北京十里河...
日期:07-15
周鸿祎警告:ChatGPT将会产生自我意识 想要消灭人类
3月15日,周鸿祎在一场名为" 人类与人工智能终有一战 "的访谈中明确表示,ChatGPT虽然现在智能看懂文字,但未来如果给GPT-4 接上摄像头,有可能会长出眼镜、耳朵和脚,看懂图像视频、...
日期:03-15
雅迪推出冠能K6电三轮:边骑边充电 百公里续航「雅迪冠能电动车如何边骑边充电」
除电动两轮车外,近两年,为满足家庭代步出行需求,在电动三轮车市场也涌现出众多新车型。日前,雅迪推出全新冠能K6电动三轮车,方便老年人或宝妈骑行,该车采用经典造型设计,撞色车身为...
日期:12-09
充电站不让充电「你支持吗?多地充电站禁止插混车辆充电 官方:充电太慢了」
快科技6月6日消息,有博主上传照片显示,深圳一充电站限制插混车辆进场充电,该充电站的APP直接发布通告称:不支持油电混动车和增程车充电。此事引起网友热议,有网友指出:都是绿牌新...
日期:06-07