「科技点亮生活智能改变世界」

Sora问世有望成为“世界模型”？

发布时间：2024-02-28 21:20:18 来源：互联网背景：

通信世界网消息（CWW）2月16日，OpenAI（美国开放人工智能研究中心）推出了首个视频生成模型“Sora”。与Runway Gen2、Pika等AI视频工具仍在努力提升短时连贯性不同，Sora通过接收文本指令，能够生成清晰度为1080P、时长60秒的短视频，同时也可以对现有视频进行前后延伸。而一年前，同一研究团队发布的AI语言模型ChatGPT，已使得文本创作、撰写以及代码审查等工作变得极为便捷。

Sora作为一个基于深度学习的视频生成模型，采用了扩散型变换器架构，并使用大量的视频数据进行训练，其强大之处在于生成的视频可以包含精细的画面场景、生动的角色表情以及复杂的镜头运动。这意味着，继文本、图像之后，OpenAI将其先进的AI技术拓展到了视频领域。Sora是首个能够理解和模拟现实世界的视频生成模型，这一能力的实现是AGI（通用人工智能）的重要里程碑。

移动校园卡怎么激活

在OpenAI发布的Sora视频实例中，其中一个视频展示了“海盗船在咖啡杯中缠斗”的场景。为呈现出理想的视觉效果，Sora需克服多个物理难题，如咖啡杯与海盗船的相对尺寸、咖啡液体的流动性对船体运动的影响（包括波浪、水花等），以及光线和阴影的处理等。尽管在视频中船体运动过程的效果仍存在明显的瑕疵，但Sora似乎具备一定程度的“物理”理解能力。因此，有人认为Sora具有“世界模型”的特点，这使其在逼真度方面更具优势。

“世界模型”即对现实物理世界进行模拟，使人工智能能够类似人类，对世界形成全面且精确的认识，这将有助于AI视频生成更为流畅、逻辑更加严密。例如，咬一口饼干，饼干上会留下齿痕，这一逻辑对于人类而言是非常简单的；然而，要让AI模型理解前后两帧画面之间的逻辑关联却非常困难，它需从海量数据中学习并掌握生成语言、图像及视频的相应方法，从而生成“推理”结果。

事实上，当前的Sora也是如此，OpenAI在技术报告中公布了Sora的不成熟之处：Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。笔者了解到，目前Sora对物理的理解是脆弱的，远非完美，仍会产生不符合常识的幻觉，还不能很好地掌握物体间的相互作用。

图灵奖得主杨立昆认为：“一个AI模型可以生成逼真的视频，这并不代表AI模型可以理解世界。”Sora目前的能力就像是人类做梦，虽然梦中场景很真实，但是逻辑上仍然存在一些问题。

尽管仍存在不少“Bug”，但不可否认的是，Sora的未来绝不仅是一款“人类造梦机”。360的创始人周鸿表示，Sora的面世意味着实现AGI的时间将从10年缩短到一两年。在他看来，Sora只是小试牛刀，它展现的不仅是视频制作能力，更是大模型对真实世界有了理解和模拟之后的新成果和新突破。

可以预见的是，Sora将被最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域运用多模态大模型能力，辅助人类生成视频，不仅能大幅提高生产效率，还可以提供全新的视觉冲击，能够帮助企业真正实现降本增效、提升用户体验。

目前，Sora还未对公众开放，其性能和可靠性还需进一步提高，当然Sora可能带来的社会和伦理问题也需要解决。

如今，生成式AI产品正在潜移默化地改变我们的生活方式，每个人都在思考此类产品如何助力自身的生活与工作。当然，要全面打开生成式AI的想象力，还是要依托多模态大模型。Sora的发布以及后续科技巨头的持续跟进，有望为AI产业带来又一轮爆发式的增长。

华为5g领跑世界

gta6售出后gta5怎么办

支付宝“金秋消费节”发3亿红包迎亚运庆双节助燃亚运经济_支付宝金秋优惠包

中秋、国庆“双节合一”，叠加亚运经济热潮，“十一”长假预计将迎来5年来最旺“黄金周”。9月22日起至10月8日，全国千万商家联合支付宝开启“金秋消费节”，2大举措助燃亚运经济，一...

Sora问世 有望成为“世界模型”？

移动校园卡怎么激活

华为5g领跑世界

gta6售出后gta5怎么办

Sora问世有望成为“世界模型”？