您的位置:首页 > 互联网

“打假”Sora爆火短片:史上最佳发布,背地里全靠人工驱动

发布时间:2024-05-07 13:12:12  来源:互联网     背景:

声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:石濑,授权转载发布。

Sora,又翻车了。

还记得早前OpenAI联动视觉艺术家、电影制作人和设计师等专业创意人士用Sora整活的7支视频吗?

其中,多媒体制作公司shy kids打造的短片《Air Head(气球人)》(以下简称为气球人)因情节完整、叙事性强,引发广泛讨论。在国内各大平台上,网友们更是毫不吝啬地夸赞这部作品,甚至有人誉之为“Sora史上最佳发布”。

4月26日,X博主“Bilawal Sidhu”发文称,《气球人》并非Sora一键直出,实际制作过程中使用了大量转描技术(Rotoscoping)和人工后期创建的视觉特效。

截至目前,该条Sora“打假贴”在X上浏览量破190万。

美国喜剧演员兼动画制作人Sway Molina在评论区留言表示,他现在对OpenAI产生了信任问题。

还有网友指出,OpenAI在发布这些视频时,并没有说明视频经过后期编辑,有误导观众之嫌。

Sora是OpenAI开发的首个文生视频模型,自今年2月份发布以来,便引起了业界的广泛关注和讨论。

据“头号AI玩家”观察,从运营官方社交媒体账号,到联动专业创作者、行业KOL,乃至TED等知名机构,几乎每隔一段时间,OpenAI就会放出Sora生成的创意视频,保持话题热度,吊足大家胃口。

OpenAI官方运营的TikTok账号

然而,除了OpenAI官方发布的技术报告和演示视频,大多数人并没有实际体验Sora的机会。最近,《气球人》制作团队接受了在线媒体平台Fxguide的采访,基于他们使用Sora的亲身体验,揭示了Sora在视频生成方面的局限。

挤掉泡沫后,Sora的真实体验究竟如何?一线AIGC创作者又是如何看待此次Sora翻车的?

华为手机mate50啥时候上市

与Sora交互靠“抽卡”,

需要详细撰写提示词

《气球人》的制作团队由三位成员组成:Sidney Leeder担任制片人,Walter Woodman同时担任编剧和导演,而Patrick Cederberg则负责后期制作。他们都来自多媒体制作公司Shy Kids,该公司旗下作品不仅获得过艾美奖提名,还曾入围奥斯卡奖。

即使在这样专业的团队手中,使用Sora的体验也堪称“曲折”。

为了保持短片画面一致性,Shy Kids采用的工作流大致可分为两个部分:先与Sora交互生成原始素材,再通过专业影视制作工具如AE(After Effects)进行后期编辑和修改。

用户与Sora的互动主要通过文本提示实现,其中ChatGPT负责将用户输入的文本转换为更长的字符串,来触发视频片段的生成。截至4月中旬,Sora尚未支持多模态输入。

首先,惨遭“打假”的是,Sora在实际使用中并没有表现出如宣传片所示那样保持主体一致性的超强能力。

负责后期制作的Patrick透露,在制作《气球人》时,团队采取的解决办法是“在文本提示中尽可能详细地描述对象”,如角色的服装和气球类型。

Patrick,图源:fxguide.com

由于Sora没有提供任何功能来帮助用户控制不同镜头内容的一致性,制作团队使用Sora的整体体验仍是“抽卡”,即便使用相同的提示词,第一次和第二次运行生成的结果也大有不同。

原因在于,AI模型(如Sora)生成视频时,并非简单复制现有图像或视频片段,而是基于训练数据学习到的物体特征。

这些特征构成了物体的“潜在空间(Latent Space)”。在深度学习领域中,潜在空间是对物体概念的一种压缩和抽象的表示。

Patrick举了一个例子。

如果你要求Sora生成一个厨房长镜头,桌上有一个香蕉。在这种情况下,AI需要隐式地理解“香蕉”可能包含的特征,如“黄色”、“弯曲”和“有深色的末端”等。

由于潜在空间是压缩的,它远小于实际可能存在的所有香蕉图像的集合。这意味着AI可以高效地生成香蕉图像,无需维护一个庞大的“香蕉图像库(banana stock library)”。

每次AI运行并生成内容时,都是对潜在空间进行不同的解释或取样,这就是为什么使用相同的提示,每次生成的香蕉图像都有可能不同。

因此,提供详尽具体的“显示”指令,即“在文本提示中尽可能详细地描述对象”,可以帮助AI更好地理解你需要什么样的画面。

后期工作量只增不减,

三人耗费近两周完成《气球人》

据介绍,Shy Kids的方法论是像拍摄纪录片一样进行后期制作和编辑,先围绕剧本生成大量镜头,然后从这些素材中编织出一个新故事,而不是严格按照剧本制作。

对于最终出现在短片中的镜头,Patrick估算他们生成了数百个片段,每个时长大约10秒到20秒,原始素材与最终成品的比例大概是300:1。

人工智能不行,只好人工来凑。

1.角色一致性?成吨后期堆出来的

Sora无法确保黄色气球头在每个镜头中都保持相同,尽管提示词要求的是一个黄色气球,但它给出的生成结果要么颜色不对,要么气球上会出现一个人脸。

Sora输出的原始画面

Sora输出的原始画面

由于真实影像中许多气球都配有绳子,Sora还会将绳子与气球关联在了一起,导致生成的气球人胸前都有一根绳子,并不符合制作团队对气球人形象的想象。

以上“画面瑕疵”都需要在后期制作中移除。

2.镜头渲染时间长,全靠人工后期提升分辨率

《气球人》虽然使用了Sora生成的素材,但其中很多都经过了调色和再处理。出于效率和质量的考虑,制作团队采用的是以低分辨率生成初始片段,然后使用AI工具Topaz进行分辨率提升。

Patrick解释说,Sora支持最高720P分辨率的操作,1080P也已经推出,但渲染时间较长。为了加快速度,他们以480P分辨率生成了《气球人》的全部内容。

Sora支持不同时间段的镜头渲染,如3秒、5秒、10秒、20秒,最长可达一分钟。渲染时间会根据一天中的时间以及云使用需求而变化。

Patrick提到,一般情况下,每次渲染需等待大约10到20分钟。团队倾向于渲染完整的20秒片段,以便在后期制作中有更多机会进行剪辑或编辑,从而提高获得满意画面的几率。

3.理解摄像机运动是AI的盲区

除了分辨率,Sora还允许用户选择宽高比,比如肖像模式或风景模式。这一功能运用在了短片中揭示主角真实身份的关键镜头中。但Sora无法原生渲染“摇摄”等这类镜头运动,在这个镜头中,制作团队先是以肖像模式渲染了这个镜头,然后通过后期裁剪手动创建了向上摇摄的效果。

对于生成式AI工具来说,训练数据附带的元数据是一个宝贵的信息来源。例如,如果在静态照片上进行训练,相机元数据将提供镜头尺寸、光圈大小以及模型训练所需的许多其他关键信息。

然而,电影镜头中的“跟踪”、“摇摄”、“倾斜”或“推进”等概念,都无法通过元数据捕捉。

Patrick指出,Sora在早期版本中对摄影机角度的生成相当随机,输入“摄像机摇摄”的提示,也只有大约60%的机会得到正确的响应。

“九个不同的人可能会有九种不同的方法来描述电影拍摄现场的一个镜头,而且OpenAI的研究人员在邀请艺术家使用这个工具之前,并没有真正像电影制作者那样思考。”Patrick补充道。

无法理解影像制作的专业术语,Sora并非个例。几乎所有主要的AI视频生成公司都面临着同样的挑战。尽管AI视频公司Runway在提供描述相机运动的用户界面方面较为先进,但其渲染的片段质量和长度却不及Sora。

4.灯光和调色:后期特效拉满

Shy Kids在他们的提示词中使用了“35毫米胶片”这一术语,发现这样的提示能带来较高一致性的画面效果。

此外,通过提示“高对比度”或“主光”,Sora也能生成相应的视觉效果。

短片的整体视觉风格,则是在Sora生成画面的基础上,通过后期添加颗粒和闪烁特效,以此来模仿传统电影胶片的风格。这一步骤中,Sora并未提供额外的通道选项,如遮罩或深度通道。

5.版权带来的提示词限制

Sora无法生成侵犯版权或疑似侵犯肖像权的内容。例如,输入提示如“35mm电影中的未来宇宙飞船,一个男人拿着光剑向前走”,Sora会拒绝生成该片段,因为这个提示与《星球大战》过于相似。甚至像已经成为拍摄基本术语的“希区柯克变焦”,也会因版权问题被Sora拒绝。

6.调整镜头速度

在《气球人》的制作过程中,一个意外的现象是,Sora生成的许多镜头原始版本是以慢动作呈现的。具体原因尚不清楚,但制作团队不得不对这些镜头的速度进行调整。

Patrick提到:“确实有许多镜头是以50%到75%的速度生成的,我们花费了大量时间进行调整,以避免整个影片给人感觉是大型的慢动作项目。”

7.音效与旁白

视觉画面之外,短片的背景音乐《The Wind》是Shy Kids团队的原创作品,而旁白则是由Patrick亲自录制的。他补充说:“有时为了改变影片的节奏,我会额外写一行剧本,然后录制并使用Sora生成相应的镜头。这是该工具在后期制作中的另一个强大用途:当你需要填补某个空白或激发创意时,Sora能够帮助你快速生成内容。

据介绍,Shy Kids团队三人耗时大约1.5至2周完成了《气球人》的制作。目前,他们正在制作该部短片的续集。

比起靠Sora直接生成一部影片,将Sora作为辅助的视觉效果工具,结合实拍镜头和AE合成等传统影视制作手段,更加“技术性”地运用Sora是制作团队接下来探索的方向。

AI视频工具的落地应用到哪一步了?

实际上,这已经不是Sora第一次翻车了。

今年2月,Sora刚发布不久,就有不少外部测试视频流出。率先拿到实测资格的彭博社发文称,Sora并不懂物理规则,生成视频的速度和效果都未能达到预期,远远没有到令人惊艳的程度。

彭博社实测:猴子长出鹦鹉尾巴

之前Sora翻车大多针对单个视频片段,而《气球人》的幕后制作过程则从影视制作的角度,揭示了当下以Sora为代表的AI视频工具的局限。

“气候尚早,代价颇大,还是专业用户的传统技艺在做底层支撑。这里面有大量的后期工作,再次佐证了,这些先进的工具不是一般创作者能驾驭的。”AIGC艺术家土豆人认为,从Shy Kids团队透露的使用体验来看,Sora还没有达到所谓世界模拟器的高度,现在呈现的内容还有很多瑕疵,离真正的商业级或影视级视频制作还有很大一段距离。

《气球人》更像是专业玩家带有实验色彩的一次探索。“对内容质量起决定性作用的是这个专业且完整的制作团队。”土豆人补充道,“技术还在早期阶段,所以选题、创作,还是围绕开发Sora潜力展开的,还没有真正到技术服务于内容的阶段。”

结合一线工作经验,实验电影人、AIGC艺术家海辛则认为,AI视频工具不一定只能为专业创作者所用,“也许现阶段能将其商业化运用的更多是传统影视广告从业者,但越来越多非影视背景的创作者也在用AI视频来表达自己”。

谈及现阶段用AI做视频的废片率时,海辛表示,目前AI在生成某些特定镜头,如月亮转动、花朵开花等空镜时,抽卡出片率会很高。而涉及人物表演的镜头则难度较大,抽卡废片率也会随之增高。

《气球人》导演Walter曾表示,Sora擅长创造看似真实的东西,但让他们兴奋的是它能够制造出完全超现实的东西。

对专业创作者而言,传统工作流是在可控性中寻找随机性,融入AI的新工作流则是在随机性中寻找可控性。

对于没有影视制作背景的普通用户来说,在随机性中寻找可控性仍是一大挑战。这或许也是Sora迟迟没有面向公众发布,而是选择先和创意软件巨头Adobe合作的原因所在。

目前,AI视频生成技术仍在快速迭代中。或许正如OpenAI研究员JasonWei所说的那样,Sora是视频生成的GPT-2时刻,它的出现会激励后续一系列模型的进步。

对标Sora,国内外近期涌现了不少新玩家。例如,生数科技联合清华大学推出的首个Sora级视频大模型“Vidu”,就支持一键生成最长16秒、分辨率达1080P的视频内容,如今已开放合作伙伴内测申请。

从“玩具”到真正的生产力工具,Sora们还有很长一段路要走。但可以预见,随着底层模型的发展,今年下半年,AI视频生成有望突破现有限制,在视频生成时长和角色一致性等方面逐步提升。


返回网站首页

本文评论
比亚迪元plus2021款多少钱「比亚迪元PLUS全球价格对比:最高卖85万 国内13.98万起」
作为比亚迪出海的首款”车型,元Plus目前已经在海外多个国家开售,其更为名为ATTO 3,并且取得了泰国、以色列、澳大利亚等多个国家的电动车销冠。iphone13涨价了?不过,不同于国内...
日期:07-28
全国人大代表刘庆峰:8份建议,全面聚焦“人工智能+”_2020年会刘庆峰总发言
通信世界网消息(CWW)今年《政府工作报告》提出“大力推进现代化产业体系建设,加快发展新质生产力”,并指出“深化大数据、人工智能等研发应用,开展‘人工智能+’行动,打造具有国际...
日期:03-07
tcl华星估值多少「TCL华星参展DIC 2023 多款高精尖产品尽显科技魅力」
2023 年 8 月 29 日,DIC EXPO2023 中国(上海)国际显示技术及应用创新展在上海新国际博览中心拉开帷幕。本届展会以“聚势为新 启程未来”为主题,通过创新产品展示、前沿技术交流...
日期:08-30
13省上调最低工资标准「涨钱了!4省份上调最低工资标准 福建、四川等15地区最低2000元以上」
自2023年以来,河北、安徽、贵州、青海等省份纷纷上调了最低工资标准。河北从1月1日开始施行新的月最低工资标准,三档分别为2200元、2000元、1800元,其中对应小时最低工资标准分...
日期:02-09
小鹏汽车终于拿出了杀手锏?, 从销量低谷到G6爆款_小鹏汽车新款上市
文/卞海川过去一年,小鹏汽车经历了低谷,产销不达预期。而在刚刚过去的6月交付量为8620台,与理想的3.2万辆相差甚远。究其原因,尽管其产品矩阵在不断丰富,但显然缺少一款真正具备...
日期:09-21
马斯克 骗「马斯克“坑煞”中国友商」
作者:普子胥懒人听书双十一活动出品 | 网易科技《态℃》栏目组“今年一季度或许是汽车行业、新能源汽车行业最困难、最有挑战的时期。”在2月6日的媒体沟通会上,蔚来联合创始...
日期:02-08
腾讯公关总监张军回应“马化腾谈收紧队形”:系外部群聊天
6月2日 消息:近日,腾讯创始人马化腾在一篇关于裁员的文章中提出了后续环境挑战目前看还挺大的观点,并呼吁团队收紧队形,做一些余量考虑,应对突发挑战。图中,马化腾转发了一篇《聊...
日期:06-02
ChatGPT走入游戏产业:当下的尝试与未来的想象
  21世纪经济报道 记者诸未静 上海报道  才刚接收到来自AI作画的震撼,ChatGPT又给整个游戏产业带来了全新的想象空间。  润色周报、模拟对话、制作简单游戏……在这个...
日期:12-15
生成式AI推动芯片行业逆势增长 英伟达成最大赢家「芯片生成流程」
文章概要:1. 经历连续五个季度下滑后,半导体行业在第二季度实现逆势增长,营收增加3.8%,创下自2021年以来的首次季度连续增长。2. 英伟达(Nvidia)在2Q23推动半导体行业逆转,单季度...
日期:09-08
叫你来赶场「你来“赶烤”,我来保障」
2023/5/31 15:36 你来“赶烤”,我来保障   “听风寻小饼、闻香识肇东”。5月21日晚,首届“肇东小饼”美食文化节在肇东市人民广场盛大开幕。来自省内外的游客和当地群众...
日期:05-31
三星Galaxy S23 Ultra:旗舰生产力让学习工作更加轻松_三星s23概念机
距离年底越来越近,对于职场人士来说也意味着年末汇报总结的临近,而对于学生党 来说期末考试也迫在眉睫。所以对于他们来说,或多或少需要随时随地进行学习或是修改汇报材料。这...
日期:12-19
腾讯广告升级投放平台能力 微信一键通投搜索场景能力上线「腾讯广告投放管理平台工具」
7月24日 消息:微信广告宣布,为帮助广告主提升搜索广告投放效率,腾讯广告升级投放平台能力,支持在竞价场景下,展示广告一键通投到搜索场景(含微信搜索、QQ 浏览器搜索等)。一键通投...
日期:07-24
手机透视女人身体软件苹果_iPhone推出了可透视人体的APP应用 恶搞视频再引恐慌
  “iPhone推出了可透视人体的APP应用”!近日,有这样一个视频在微博上热转。视频中,人们能够通过iPhone的屏幕看到街头行人的“裸体”。在这一热传的信息中,还给出了软件下载...
日期:07-28
中国联通智能网关入口「中国联通启动2023家庭智能网关集采:规模约为1190万台」
2023/5/31 08:28 中国联通启动2023家庭智能网关集采:规模约为1190万台小红书几种赚钱模式   ...
日期:06-02
前程无忧招聘网下架了吗_无忧精英网发布2019年秋季跳槽意愿报告
  每年秋季,人才流动都会迎来一个小高峰。近期前程无忧旗下精英职业发展平台--无忧精英网,针对职场精英2019年秋季跳槽意愿进行了一项调研,共有7189名职场精英(工作2年以上,...
日期:11-15
谷歌AI多模态人工智能系统网页版在线使用地址 Gemini官网体验入口_谷歌ai人工智能平台
Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都...
日期:01-20
重磅!谷歌免费开放Gemini Pro 的API,媲美ChatGPT!_谷歌免费入口
声明:本文来自于微信公众号AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。12月14日,谷歌在官网宣布,免费开放Gemini Pro和Gemini Pro Vision的API,支持中文。Gemini Pro...
日期:12-15
网易音乐业务「网易举行2023年Q1业绩电话会议 网易云音乐原创音乐人超63万」
5 月 25 日晚,网易集团进行了 2023 一季度业绩电话会议。电话会议透露,电话会议透露,网易云音乐Q1 会员订阅数稳定增长,付费率稳定在20%;平台注册音乐人于一季度突破 63 万人,版...
日期:05-26
iPhone 14销量暴跌!苹果也要卖不动了_苹果14会涨价吗
iPhone 14销量暴跌几乎已经是板上钉钉的事情,首销当天就直接让黄牛亏钱,也是闻所未闻的。由于苹果“挤牙膏”式的升级操作,大大低于消费者对iPhone 14入门机型的预期,导致绝大部...
日期:10-09
OPPO Reno9 Pro+发布:骁龙8+配双芯人像摄影系统 售3999元起_oppo reno9 pro
凤凰网科技讯(作者/莫环顺)11月24日消息,OPPO于今日举行发布会,发布手机OPPO Reno9系列,Reno9 Pro+搭载第一代骁龙8+移动平台的同时,支持双芯人像摄影系统,售价3999元起。OPPO Reno...
日期:11-25