您的位置:首页 > 互联网

AI文生视频,会在明年迎来“GPT时刻”

发布时间:2023-12-07 01:27:23  来源:互联网     背景:

声明:本文来自于微信公众号 AI新智能(ID:alpAIworks),作者:举大名耳,授权转载发布。

在当下的AI赛道上,AI生文、生图的应用,早已层出不穷,相关的技术,也在不断日新月异。

而与之相比,AI文生视频,却是一个迟迟未被“攻下”的阵地。

抖动、闪现、时长太短,这一系列缺陷,让AI生成的视频只能停留在“图一乐”的层面,很难拿来使用,更不要说提供商业上的赋能。

直到最近,某个爆火的应用,再次燃起了人们对这一赛道的关注。

关于这个叫做Pika的文生视频AI,这些天想必大家已经了解了很多。

因此,这里不再赘述Pika的各种功能、特点,而是单刀直入地探讨一个问题,那就是:

Pika的出现,是否意味着AI文生视频距离人们期望中的理想效果,还有多远?

1

难题与瓶颈

实事求是地说,目前的AI文生视频赛道,难度和价值都很大。

而其中最大的难点,莫过于让画面变得“抽风”的抖动问题。

关于这一点,任何使用过Gen-2Runway 等文生视频AI的人,都会深有体会。

抖动、闪现,以及不时出现的画面突变,让人们很难获得一个稳定的生成效果。

而这种“鬼畜”现象的背后,其实是帧与帧之间联系不紧密导致的。

具体来说,目前AI生成视频技术,与早期的手绘动画很相似,都是先绘制很多帧静止的图像,之后将这些图像连接起来,并通过一帧帧图像的渐变,实现画面的运动。

但无论是手绘动画还是AI生成的视频,首先都需要确定关键帧。因为关键帧定义了角色或物体在特定时刻的位置和状态。

之后,为了让画面看起来更流畅,人们需要在这些关键帧之间添加一些过渡画面(也称为“过渡帧”或“内插帧”)。

可问题就在于,在生成这些“过渡帧”时,AI生成的几十帧图像,看起来虽然风格差不多,但连起来细节差异却非常大,视频也就容易出现闪烁现象。

这样的缺陷,也成了AI生成视频最大的瓶颈之一。

而背后的根本原因,仍旧是所谓的“泛化”问题导致的。

用大白话说,AI的对视频的学习,依赖于大量的训练数据。如果训练数据中没有涵盖某种特定的过渡效果或动作,AI就很难学会如何在生成视频时应用这些效果。

这种情况,在处理某些复杂场景和动作时,就显得尤为突出。

除了关键帧的问题外,AI生成视频还面临着诸多挑战,而这些挑战,与AI生图这种静态的任务相比,难度根本不在一个层面。

例如:

动作的连贯性:为了让视频看起来自然,AI需要理解动作的内在规律,预测物体和角色在时间线上的运动轨迹。

长期依赖和短期依赖:在生成视频时,一些变化可能在较长的时间范围内发生(如角色的长期动作),而另一些变化可能在较短的时间范围内发生(如物体的瞬时运动)。

为了解决这些难点,研究人员采用了各种方法,如使用循环神经网络(RNN)、长短时记忆网络(LSTM)和门控循环单元(GRU)来捕捉时间上的依赖关系等等。

但关键在于,目前的AI文生视频,并没有形成像LLM那样统一的,明确的技术范式,关于怎样生成稳定的视频,业界其实都还处于探索阶段。

2

难而正确的事

AI文生视频赛道,难度和价值都很大。

其价值,就在于其能真切地解决很多行业的痛点和需求,而不是像现在的很多“套壳”应用那样,要么锦上添花,要么圈地自萌。

360智能摄像机小水滴1080p

关于这点,可以从“时间”和“空间”两个维度上,对AI文生视频的将来的价值空间做一番审视。

从时间维度上来说,判断一种技术是不是“假风口”、假繁荣,一个最重要的标准,就是看人们对这类技术的未来使用频率。

根据月狐iAPP统计的数据,从2022年Q2到今年6月,在移动互联网的所有类别的APP中,短视频的使用时长占比均高达30%以上,为所有类别中最高。

除了时间这一“纵向”维度外,倘若要在空间维度上,考量一种技术的生命力,最关键的指标,就是看其究竟能使多大范围内的群体受益。

因为任何技术想要“活”下来,就必须像生物体那样,不断地传播、扩散自己,并在不同环境中自我调整,从而增加多样性和稳定性。

例如在媒体领域,根据Tubular Labs的《2021年全球视频指数报告》,新闻类别的视频观看量在2020年同比增长了40%。

同样地,在电子商务方面,根据Adobe的一项调查,大约60%的消费者在购物时更愿意观看产品视频,而不是阅读产品描述。

而在医疗领域,根据MarketsandMarkets的报告,全球医学动画市场预计从2020年到2025年将以12.5%的复合年增长率增长。

在金融行业中,HubSpot的一项研究表明,视频内容在转化率方面表现优异。视频内容的转化率比图文内容高出4倍以上。

这样的需求,表明了从时间、空间这两个维度上来说,视频制作领域,都是一个蕴含着巨大增量的“蓄水池”。

然而,要想将这个“蓄水池”的潜力完全释放出来,却并不是一件容易的事。

因为在各个行业中,对于非专业人士来说,学习如何使用复杂的视频制作工具(如Adobe Premiere Pro、Final Cut Pro或DaVinci Resolve)可能非常困难。

而对于专业人士来说,制作视频还是个耗时的过程。他们得从故事板开始,规划整个视频的内容和结构,然后进行拍摄、剪辑、调色等等。

有时候,仅仅一分半的广告视频,就可能耗时一个月之久。

从这个角度来说,打开了AI文生视频这条赛道,就相当于疏通了连接在这个蓄水池管道里的“堵塞物”。

在这之后,暗藏的财富之泉,将喷涌而出,为各个行业带来新的增量与繁荣。

从这样的角度来看,文生视频这条赛道,即使再难,也是正确的,值得的。

3

行业引领者

赛道既已确定,接下来更重要的,就是判断在这样的赛道中,有哪些企业或团队会脱颖而出,成为行业的引领者。

目前,在AI文生视频这条赛道上,除了之前提到的Pika,其他同类企业也动作频繁。

科技巨头Adobe Systems收购了Rephrase.ai,Meta推出了Emu Video,Stability AI发布了Stable Video Diffusion,Runway对RunwayML进行了更新。

飞书谢欣直播视频

而就在昨天,AI视频新秀NeverEnds也推出了最新的2.0版本。

从目前来看,Pika、Emu Video、NeverEnds等应用,已经显示出了不俗的实力,其生成的视频,已大体上能保持稳定,并减少了抖动。

但从长远来看,要想在AI文生视频领域持续保持领先,至少需要具备三个方面的条件:

1、强大的算力

在视频领域,AI对算力的要求,比以往的LLM更甚。

这是因为,视频数据包含的时间维度和空间维度,都要比图片和文字数据更高。同时为了捕捉视频中的时间动态信息,视频模型通常需要具有更复杂的结构。

更复杂的结构,就意味着更多的参数,而更多的参数,则意味着所需的算力倍增。

因此,在将来的AI视频赛道上,算力资源仍旧是一个必须跨过的“硬门槛”。

2、跨领域合作

与图片或文字大模型相比,视频大模型通常涉及更多的领域,综合性更强。

其需要整合多种技术,例如来实现高效的视频分析、生成和处理。包括但不限于:图像识别、目标检测、图像分割、语义理解等。

如果将当前的生成式AI比作一棵树,那么LLM就是树的主干,文生图模型则是主干延伸出的枝叶和花朵,而视频大模型,则是汲取了各个部位(不同类型数据)的养分后,结出的最复杂的果实。

因此,如何通过较强的资源整合能力,进行跨领域的交流、合作,就成了决定团队创新力的关键。

3、技术自主性

诚如之前所说,在目前的文生视频领域,业界并没有形成像LLM那样明确的、统一的技术路线。业界都在往各种方向尝试。

而在一个未确定的技术方向上,如何给予一线的技术人员较大的包容度,让其不断试错,探索,就成了打造团队创新机制的关键。

对于这个问题,最好解决办法,就是让技术人员亲自挂帅,使其具有最大的“技术自主性”。

诚如Pika Labs的创始人Chenlin所说:“如果训练数据集不够好看,模型学到的人物也不会好看,因此最终你需要一个具有艺术审美修养的人,来选择数据集,把控标注的质量。”

在各企业、团队不断竞争,行业新品不断涌现的情况下,文生视频AI的爆发期,就成了一件十分具体的,可以预期的态势。

按照Pika Labs创始人Demi的判断,行业也许会在明年迎来AI视频的“GPT时刻”。

尽管技术的发展,有时并不会以人的意志为转移,但当对一种技术的渴望,成为业界的共识,并使越来越多的资源向其倾斜时,变革的风暴,就终将会到来。


返回网站首页

本文评论
中国绿色计算产业联盟「中国绿色算力大会|聚变创新,共建绿色未来」
通信世界网消息(CWW)7 月 2 日,超聚变以“聚变创新,共建绿色未来”为主题,在呼和浩特成功举办中国绿色算力大会 — 超聚变绿色算力平行会议。来自北京大学、内蒙古工业大学、工信...
日期:07-04
售价超2万元!苹果首款头显Reality Pro高清渲染图出炉:下周发布「苹果6月发布vr头显」
快科技6月1日消息,苹果将会在下周二(6月6日)召开WWDC 2023开发者大会,除了iOS 17等新系统之外,还将发布一些硬件产品。其中,苹果首款AR/VR头显已经确认会亮相,而且是作为最重要的产...
日期:06-01
宁德时代与蔚来签署全面战略合作协议 打造高效协同电池供应体系
1月18日 消息:1月17日,宁德时代宣布与蔚来在宁德签署五年全面战略合作协议。苹果apple tv在国内如何使用apple watch对学生有什么用据介绍,此次全面战略合作协议的签署是双方...
日期:01-18
特斯拉人形机器人原型机亮相 售价或低于2万美元_美国阿特拉斯人形机器人
凤凰网科技讯 北京时间10月1日消息,特斯拉公司今天举行2022年“AI日”活动,发布了预告已久的人形机器人“擎天柱”(Optimus)。这是特斯拉首次展示人形机器人的硬件原型。去年8...
日期:10-02
midjourney教程:100个案例告诉你如何在midjourney提示中使用某个艺术家风格
注:本文案例图片均由midjourney生成本周,Midjourney团队宣布将V4模型作为其默认版本,当然,V3仍然可用。以上三图提示词分别为:anime girl wearing intricate fish mask by Tim...
日期:03-29
2023最邪门公司:光靠炒币,半年赚1.55亿
声明:本文来自于微信公众号 铅笔道(ID:pencilnews),作者:惜文,授权转载发布。依靠加密货币,美图赚了约1.55亿,副业蓬勃发展,主业前景如何?作者丨铅笔道 惜文昨日,美图向外界公布一个...
日期:07-19
美团单车对12岁以下未成年人说不:16岁才能实名注册(未满18岁可以注册美团骑手吗)
来源:快科技   现在,大街上随处可见的共享单车为大家的出行带来了极大便利,不过也有不少问题出现,并且因共享单车而引发的意外事故越来越多。   近日,为了完善未成年人交通安...
日期:08-17
618苹果大跌:iPhone 14 4999元_iphone14降价
在这一年一度的618购物狂欢节中,苹果产品今年的折扣力度是史无前例的,尤其是iPhone 14系列。当代iPhone 14手机降价超过千元,而iPhone 14 Pro Max更是享有超过1700元的折扣。此...
日期:06-01
投资者劝马斯克:特斯拉与其降价促销,不如花钱打广告_马斯克回应特斯拉降价
10月16日消息,特斯拉很少花钱打广告,但随着销量增长放缓和为提振汽车销量而采取降价策略,让很多投资者感到不安。尤其是降价可能会导致特斯拉今年收入减少数十亿美元。而通用汽...
日期:10-16
MediaTek发布Filogic 860 和 Filogic 360,拓展面向主流设备的Wi-Fi 7产品组合
通信世界网消息(CWW)MediaTek发布Filogic 860和Filogic 360 Wi-Fi 7 无线连接平台解决方案,两款产品具备先进的网络连接技术、出色的传输性能和可靠性。MediaTek作为率先采用Wi...
日期:11-23
梦天实验舱完成发射前全区合练:已做好发射前准备_明年发射问天梦天实验舱
据央视新闻消息,今天(10月29日)上午,在文昌航天发射场的测试发射大厅,工作人员组织了梦天实验舱发射前最后一次系统间全区合练。各系统已完成了相关功能检查,准备就绪,等待正式发射...
日期:10-30
高文:构建算力网络,还需克服算力封装和时延两大难题
  讯 12月12日上午消息,CNCC2022中国计算机大会期间,CCF 会士、CCF前理事长、中国工程院院士、鹏城实验室主任高文指出,现在已经过了讨论要不要做算力网的阶段,转而进入该讨论...
日期:12-12
高德跨城公共出行服务全新升级 公交+火车智能接驳_高德实时公交 覆盖哪些城市
  1月24日消息,春节假期临近,返乡过年或出门旅游的需求开始增加。为了帮助人们更方便地安排跨城出行,高德地图公共出行服务近日进行了全新升级,可在全国范围内,为用户提供火车...
日期:07-17
facbook市值_分析称Facbook5估值百亿美元实为泡沫
  日前,老牌投行高盛抛出:Facebook估值高达500亿美元。尽管这个拥有十个零的百亿美元“天价”对于互联网领域来说并不骇人听闻,不过,对于一家成立仅6年,外界对其盈利模式仍捉...
日期:07-25
杭州法华寺月薪8万招聘和尚?传授72绝技?假的_杭州法华寺高僧
2月7日,一则所谓法华寺招聘和尚”的消息在网上流传,号称方丈住持津贴为每月8万元以上,不过经证实这是虚假信息。谷歌眼镜最新一代据悉,法华寺位于杭州市西湖区北高峰下,是一处佛...
日期:02-08
索尼PS5串流掌机价格曝光:最高2100元能接受么?「索尼串流ps4」
快科技6月24日消息,随着微软与美国联邦贸易委员会就收购动视暴雪一事展开诉讼,又一轮新的揭老底”开始了。据报道,在微软提交的审查文件中,曝光了索尼早些时候公布的PS5串流掌机...
日期:06-25
宏碁发布掠夺者刀锋X和掠夺者·擎Neo游戏本_宏碁掠夺者系列哪个好
2023年4月20日在主题为“探索新平衡”的宏碁全球春季新品发布会上,宏碁发布全新电竞游戏本阵容,全系列采用全新设计,并搭载最新第13代英特尔酷睿处理器与NVIDIA GeForce RTX 40...
日期:09-17
有米科技获省高新技术产品认定及市广告行业一级资质
  2019年第一季度刚刚结束,有米云在Q1中获得了良好的市场表现,季度新注册用户保持高速增长。   有米云是有米科技在2018年推出并全力打造的战略性产品,倾注了有米九年来在...
日期:05-07
全球独角兽遭遇“十年之痛”「这个世界有独角兽吗」
  来源:日经中文网  文/奥平和行 今堀祥和   企业估值超过10亿美元的未上市企业被称为“独角兽”已有10年。从约40家增至逾1100家的“独角兽”目前正面临货币紧缩的逆...
日期:09-27
菜鸟裹裹服务升级 联合蚂蚁保上线全网运费险「菜鸟裹裹价保」
11 月 3 日消息,记者了解到,为进一步提升消费者体验,天猫双 11 期间,菜鸟裹裹宣布服务升级,联合蚂蚁保上线全网运费险,为用户提供保险增值服务,联合手机天猫APP升级退货免运费权益,...
日期:11-04