您的位置:首页 > 互联网

AI视频年大爆发!Gen-2/Pika成时代爆款,2023年AI视频生成领域的现状全盘点

发布时间:2024-02-11 15:24:57  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?过去一年,AI视频领域我们见证了,Gen-2、Pika等爆款产品的诞生。来自a16z的Justine Moore,详细盘点了人工智能视频生成领域的现状、不同模型比较,以及还未解决的技术挑战。接下来,一起看看这篇文章都讲了什么?AI视频生成大爆发2023年是AI视频取得突破的一年。不过,今年过去了一个月,暂未有公开的文本到视频的模型。短短12个月,数十种视频生成产品受到了全球数以万计的用户的青睐。不过,这些AI视频生成工具仍相对有限,多数只能生成3-4秒的视频,同时质量往往参差不齐,角色一致性等问题尚未解决。也就是说,我们还远不能制作出一个只有文字提示,甚至多个提示的皮克斯级别的短片。然而,我们在过去一年中在视频生成方面取得的进步表明,世界正处于一场大规模变革的早期阶段——与我们在图像生成方面看到的情况类似。我们看到,文本到视频的模型在不断改进,图像到视频,以及视频到视频等分支也在蓬勃发展。为了帮助了解这一创新的爆炸式增长,a16z追踪了到目前为止最需要关注的公司,以及该领域仍然存在的潜在问题。今天,你可以在哪里生成AI视频?21个视频生成产品今年到目前为止,a16z已经跟踪了21种公开产品。虽然你可能听说过Runway、Pika、Genmo和Stable Video Diffusion,但还有许多其他的东西需要探索。这些产品大多来自初创公司,其中许多都是从Discord bots,有以下几个优势:- 不需要构建自己面向消费者的界面,只需专注于模型质量- 可以利用Discord每月1.5亿活跃用户的基础进行分发- 公共渠道为新用户提供了一种简便的方式,让他们获得创作灵感(通过查看他人的创作)然而,随着技术成熟,我们开始看到越来越多的AI视频产品建立自己的网站,甚至是App。随着Discord提供了一个很好的平台,但在纯生成之上添加的工作流而言,却是有限的,并且团队对消费者体验的控制很少。值得注意的是,还有很大一部分人不使用Discord,因其觉得界面混乱让人困惑。研究和技术谷歌、Meta和其他公司在哪里?在公开的产品列表中,他们显然没有出现--尽管你可能已经看到了他们发布的关于Emu Video、VideoPoet 和 Lumiere等模型的帖子。到目前为止,大型科技公司基本上都不选择公开自家的AI视频产品。取而代之的是,他们发表了各种相关的视频生成的论文,而没有选择视频演示。比如,谷歌文本生成视频的模型Lumiere这些公司有着巨大的分销优势,其产品拥有数十亿用户。那么,他们为什么不放弃发布视频模型,而在这一新兴类别市场中夺取巨大份额。最主要的原因还是,法律、安全和版权方面的担忧,往往使这些大公司很难将研究转化为产品,并推迟推出。如此一来,让新来者有机会获得先发优势。AI视频的下一步是什么?如果你曾使用过这些产品,便知道在AI视频进入主流产品之前,仍然有很大的改进空间。有时会发现,AI视频工具可以将提示内容生成视频的神奇时刻,但这种情况相对较少见。更常见的情况是,你需要点击几次重新生成,然后裁剪或编辑输出,才能获得专业级别的片段。这一领域的大多数公司都专注于解决一些核心的问题:- 控制性:你能否同时控制场景中发生的事情,(比如,提示有人向前走,动作是否如描述的那样?)关于后一点,许多产品都增加了一些功能,允许你对镜头zoom或pan,甚至添加特效。- 动作是否如描述的那样一直较难解决:这涉及到底层模型的质量问题(模型是否理解提示的含义并能按要求生成),尽管一些公司正在努力在生成前提供更多的用户控制。比如,Runway的motion brush就是一个很好的例子,它允许用户高粱图像的特定区域并确定其运动方式。时间一致性:如何让角色、对象和背景在帧之间保持一致,而不会变形为其他东西或扭曲?在所有公开提供的模型中,这是一个非常常见的问题。如果你今天看到一段时间连贯的视频,时长超过几秒,很可能是视频到视频,通过拍摄一段视频,然后用AnimateDiff prompt travel之类的工具来改变风格。- 长度——制作长时间的短片与时间连贯性高度相关。许多公司会限制生成视频的长度,因为他们不能确保几分钟后依然视频保持一致性。如果当你看到一个超长的AI视频,要知道它们是由一堆短片段组成的。尚未解决的问题视频的ChatGPT时刻什么时候到来?其实我们还有很长的路要走,需要回答以下几个问题:1当前的扩散架构是否适用于视频?今天的视频模型是基于扩散模型搭建的:它们基本原理是生成帧,并试图在它们之间创建时间一致的动画(有多种策略可以做到这一点)。他们对3D空间和对象应该如何交互没有内在的理解,这解释了warping / morphing。2优质训练数据从何而来?与其他模态模型相比,训练视频模型更难,这主要是因为视频模型没有那么多高质量的训练数据可供学习。语言模型通常在公共数据集(如Common Crawl)上进行训练,而图像模型则在LAION和ImageNet等标记数据集(文本-图像对)上进行训练。视频数据更难获得。虽然在YouTube和TikTok等平台上不乏公开可访问的视频,但这些视频没有标签,也不够多样化。3这些用例将如何在平台/模型之间进行细分?我们在几乎每一种内容模态中看到的是,一种模型并不是对所有用例都取胜的。例如,MidTrik、Idegraph和Dall-E都有不同的风格,并擅长生成不同类型的图像。如果你测试一下今天的文本到视频和图像到视频模式,就会发现它们擅长不同的风格、运动类型和场景构成。提示:Snow falling on a city street, photorealisticGenmoRunwayStable Video DiffusionPika Labs谁将主导视频制作的工作流程?而在许多产品之间,来回是没有意义的。除了纯粹的视频生成,制作好的剪辑或电影通常需要编辑,特别是在当前的范例中,许多创作者正在使用视频模型来制作在另一个平台上创建的照片的动画。从Midjourney的图像开始,在Runway或Pika上制作动画,然后在Topz上进行升级的视频并不少见。然后,创作者将视频带到CapCut或Kapwing等编辑平台,并添加配乐和画外音,通常是在Suno和ElevenLabs等其他产品上生成的。参考资料:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/

余额宝三万收益


返回网站首页

本文评论
iPhone15将搭堆叠式摄像头 但不会有潜望式镜头
关于今年即将发布的一批新款iPhone的大部分传闻都集中在iPhone 15 Pro型号上,因为它们可能会使用电容式音量键。这些传闻现在可能已经暂时消退,但我们终于看到了iPhone15基础...
日期:05-15
联想moto razr 40系列发布:小折叠售价3999元起「联想折叠屏手机摩托罗拉」
2023/6/1 20:42 联想moto razr 40系列发布:小折叠售价3999元起  南山 C114...
日期:06-03
刘作虎:安卓现在很好用 应该不用争论了吧
今天晚上,OPPO首席产品官刘作虎发文表示,Android现在很好用,应该不用争论了吧。此前刘作虎就暗示,ColorOS 13将会针对折叠屏进行深度适配,充分利用折叠屏的大屏幕优势,以此达到”...
日期:11-16
华为畅享6nceal10「华为畅享60 Pro官宣:居中打孔直屏 超能续航」
快科技5月15日消息,华为将在5月18日19:30举行夏季全场景新品发布会,届时发布手机、手表、笔记本等诸多新品。科大讯飞智慧法院庭审系统今日华为官宣了新机华为畅享60 Pro,正面...
日期:05-15
与疾速追杀相关的电影电视剧「《龙与地下城》力压《疾速追杀4》」
游戏改编电影《龙与地下城:盗贼荣耀》不仅拿到CinemaScore A-评级,还凭借首日1530万美元票房有望获得首周4000万美元佳绩,将上映两周的《疾速追杀4》挑落马下,后者第二周票房将...
日期:04-02
飞信落幕!运营15年,注册用户达5亿,中国移动宣布:和飞信将停止服务!你用过吗?
每经编辑 毕陆名   中国移动近日发布公告,宣布调整和飞信业务,自9月30日开始停止提供该服务,这意味着曾经收获5亿注册用户的飞信App将正式走下历史舞台。公告如下: 新零售发展...
日期:08-02
55家从事非法网络公关活动的网站近日被依法关闭(如何有效避免出现这种不正当的网络公关公司)
  55家从事非法网络公关活动的网站近日被依法关闭,这些网站包括所谓删帖公司、维权类网站、水军网站和网络推手等一系列从事非法网络公关的网站。不过记者在调查中发现,非法...
日期:07-30
微信步数能不能关「建议明天把微信步数关一下 保护单身狗!」
马上就是七夕节,一条 #建议明天把微信步数关一下# 话题登上微博热搜,阅读量高达2.6亿。这条微博引发了网友们的热议,评论基本上是一边倒的。其中有一位博主晒出了一张朋友圈截...
日期:08-22
印度火车相撞2021「相撞事故已致死伤超千人!印度列车背后:平均每天45人丧生」
印度近日发生的本世纪最严重的列车相撞事故”引起全球关注。6月3日,印度官方发布新闻表示,6月2日发生的奥迪沙邦列车相撞事故,事发现场救援工作已结束。伤者已被送往医院。此次...
日期:06-04
长期大量喝红茶的危害「喝红茶也能降低死亡风险」
  来源:科技日报  科技日报北京8月30日电;(实习记者张佳欣)一项前瞻性队列研究发现,喝红茶可能与较低的死亡风险有关。每天喝两杯或两杯以上茶的人患病风险最低。这一发现发...
日期:09-01
在宣布计划裁员7000人几天后 迪士尼流媒体服务CTO离职
2月13日消息,据外媒报道,根据一份内部备忘录,在迪士尼宣布将裁员7000人几天后,迪士尼流媒体服务的首席技术官(CTO)杰里米·多伊格(Jeremy Doig)离职。2022年智能手机即将退出市场上...
日期:02-13
爱瑞无线通信「再创佳绩!爱瑞无线5G高精度定位解决方案斩获行业殊荣」
通信世界网消息(CWW)又逢年末,岁止亦向新。值此万象更新之际,凭借多年来在5G无线领域的深耕厚植,爱瑞无线5G高精度定位解决方案在“2023 ICT年度企业及优秀解决方案/产品”活动中...
日期:01-11
今年双11变“静悄悄”了:越来越多网友表示麻木 套路多、理性消费
快科技11月10日消息,今年双11变更静悄悄了”的话题上了热搜,这也引发了网友的讨论。无论参不参与,消费者对双十一活动的变得越来越理性,在购买付钱这件事上越发精打细算。消费者...
日期:11-10
Redmi K70升级金属中框后友商纷纷跟进 卢伟冰:供应链产能一下爆满_红米 k70
快科技12月9日消息,小米集团卢伟冰发微博表示,由于Redmi K70搭载了金属中框,最近有很多友商的新产品都开始从塑料边框改金属中框,供应链产能一下子就满了。vr行业以后会发展的好...
日期:12-10
霍金推翻了霍金?_霍金留下了什么预言
霍金推翻了霍金? “霍金推翻了霍金。”比利时鲁汶大学教授、引力波中心主任托马斯·赫托格在新书《时间起源》中这样写道。他是世界著名的宇宙学家,也是史蒂芬·霍金的学生和...
日期:10-24
电脑病毒诞生40年:已可被用于攻击伊朗核设施(美国攻击伊朗核设施病毒)
  恶意软件——病毒、蠕虫、木马等——的诞生时间几乎与首批联网电脑一样长。事实上,2011年距离已知的首款电脑病毒出现已经整整40周年。首款病毒来自一次实验,虽未造成破...
日期:07-23
神速!Android 15全球首曝:代号“香草冰淇淋”相当甜美「香草味的冰淇淋好吃吗」
尽管Android 14刚推出了第一个开发者预览版本,更新的Android 15在谷歌内部也立项了。爆料人Mishaal Rahman在AOSP中发现了Android 15的开发代号,即Vanilla Ice Cream(香草冰淇...
日期:03-05
齿科机构向医美平台靠拢,更美APP位居行业首位_医美垂直平台
  伴随着社会的发展以及进步,爱美已经不仅仅只是关注脸部容貌,健康的口腔环境和健康的牙齿也是必不可少的。正因为如此齿科在医美行业快速崛起,成为比较常见的医美项目之...
日期:07-14
苹果 iPadOS 17 兼容性曝光,三款 iPad 将无法更新_ipad2版本不兼容
IT之家 4 月 24 日消息,苹果今年将推出新的 iPadOS 17 系统,但不是所有的 iPad 都能享受到这一更新。据可靠消息,苹果将在 iPadOS 17 中放弃对三款 iPad 的支持,它们分别是 iPad...
日期:04-24
经济日报:共享单车企业脱困不能光靠涨价(共享单车集体涨价)
被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】   近日,美团单车发布公告上调骑行卡价格。相比前...
日期:08-18