通信世界网消息(CWW)2月16日,OpenAI(美国开放人工智能研究中心)推出了首个视频生成模型“Sora”。与Runway Gen2、Pika等AI视频工具仍在努力提升短时连贯性不同,Sora通过接收文本指令,能够生成清晰度为1080P、时长60秒的短视频,同时也可以对现有视频进行前后延伸。而一年前,同一研究团队发布的AI语言模型ChatGPT,已使得文本创作、撰写以及代码审查等工作变得极为便捷。
Sora作为一个基于深度学习的视频生成模型,采用了扩散型变换器架构,并使用大量的视频数据进行训练,其强大之处在于生成的视频可以包含精细的画面场景、生动的角色表情以及复杂的镜头运动。这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。Sora是首个能够理解和模拟现实世界的视频生成模型,这一能力的实现是AGI(通用人工智能)的重要里程碑。
移动校园卡怎么激活
在OpenAI发布的Sora视频实例中,其中一个视频展示了“海盗船在咖啡杯中缠斗”的场景。为呈现出理想的视觉效果,Sora需克服多个物理难题,如咖啡杯与海盗船的相对尺寸、咖啡液体的流动性对船体运动的影响(包括波浪、水花等),以及光线和阴影的处理等。尽管在视频中船体运动过程的效果仍存在明显的瑕疵,但Sora似乎具备一定程度的“物理”理解能力。因此,有人认为Sora具有“世界模型”的特点,这使其在逼真度方面更具优势。
“世界模型”即对现实物理世界进行模拟,使人工智能能够类似人类,对世界形成全面且精确的认识,这将有助于AI视频生成更为流畅、逻辑更加严密。例如,咬一口饼干,饼干上会留下齿痕,这一逻辑对于人类而言是非常简单的;然而,要让AI模型理解前后两帧画面之间的逻辑关联却非常困难,它需从海量数据中学习并掌握生成语言、图像及视频的相应方法,从而生成“推理”结果。
事实上,当前的Sora也是如此,OpenAI在技术报告中公布了Sora的不成熟之处:Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。笔者了解到,目前Sora对物理的理解是脆弱的,远非完美,仍会产生不符合常识的幻觉,还不能很好地掌握物体间的相互作用。
图灵奖得主杨立昆认为:“一个AI模型可以生成逼真的视频,这并不代表AI模型可以理解世界。”Sora目前的能力就像是人类做梦,虽然梦中场景很真实,但是逻辑上仍然存在一些问题。
尽管仍存在不少“Bug”,但不可否认的是,Sora的未来绝不仅是一款“人类造梦机”。360的创始人周鸿 表示,Sora的面世意味着实现AGI的时间将从10年缩短到一两年。在他看来,Sora只是小试牛刀,它展现的不仅是视频制作能力,更是大模型对真实世界有了理解和模拟之后的新成果和新突破。
可以预见的是,Sora将被最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域运用多模态大模型能力,辅助人类生成视频,不仅能大幅提高生产效率,还可以提供全新的视觉冲击,能够帮助企业真正实现降本增效、提升用户体验。
目前,Sora还未对公众开放,其性能和可靠性还需进一步提高,当然Sora可能带来的社会和伦理问题也需要解决。
如今,生成式AI产品正在潜移默化地改变我们的生活方式,每个人都在思考此类产品如何助力自身的生活与工作。当然,要全面打开生成式AI的想象力,还是要依托多模态大模型。Sora的发布以及后续科技巨头的持续跟进,有望为AI产业带来又一轮爆发式的增长。