您的位置:首页 > 互联网

达摩院发布一站式AI视频创作平台“寻光”,打造全新AI工作流_寻找达摩是什么游戏

发布时间:2024-07-08 13:29:46  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

今年是 AI 视频生成爆发的元年,以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于 AI 的视频创作方式开始流行起来。

但新技术也引发更多的挑战与质疑,除了大家熟知的 “开盲盒”现象,AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。

OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试,其中来自于多伦多的 Shy Kids 团队,利用 Sora 制作了一个气球人主题的短片,把创意和 AI 技术进行了完美的结合,让人印象深刻。

手机root权限如何开启

整个短片其实并不是 Sora 直接输出的结果,而是由多个视频片段组成,且 Sora 在生成不同视频时,很难保证主角的一致性。因此,在引入了大量的人工后期编辑,他们才呈现出最终的短片效果。Shy Kids 的主创们总结,“Sora 的技术很酷,但是它的生成过程很难控制。”

对生成内容的精准可控,是 AI 视频创作中的重要需求,也是今天算法面临的一大挑战。

青岛啤酒股份有限公司年度报告

为此,在刚结束的上海世界人工智能大会(WAIC)上,达摩院发布了一站式 AI 视频创作平台 “寻光”。

其定位为 PUGC 一站式 AI 视频创作平台,可辅助用户创作剧本、分镜图等,并通过工作流整合提升创作全流程的效率,支持对生成及上传素材进行丰富的 AI 编辑,提供人物控制、场景控制、风格迁移、运镜控制、目标新增 / 消除 / 修改等十多种 AI 编辑功能,让视频中的元素和对象精准可控。

达摩院希望借由寻光平台进一步提升 AI 视频创作的效率,目标是用 AI 能力重塑传统视频制作的整个流程,打造 AI 时代的全新视频工作流。

业界首次落地

基于图层的视频编辑

在寻光研发的初期,达摩院还与影视传媒从业者及创作者进行了广泛且密集调研,了解其对于视频 AIGC 创作的需求与痛点。他们发现,视频图层几乎是所有视频创作者们提到频次最高、最迫切的需求。

基于此,寻光平台首次在行业推出系统性的视频图层编辑功能。用户通过文本输入,即可生成符合文本描述且具有透明背景的视频,并且一键将其融合到其他背景视频当中。在传统视频生成能力的基础上,用图层这样一种更灵活的形式来产生内容。

寻光更提供图层拆解功能,轻轻一圈,选定目标立刻拆解为单独的图层视频,再丝滑嵌入不同的背景视频。

用户可以将不同的前景图层跟不同的背景进行图层融合,组合出更多新的视频。图层融合的能力进一步激发 AI 创作力和想象力,同时能够保持多个分镜头之间的场景和人物的一致性。

在达摩院看来,AI 不会取代创作者的工作,而是会优化视频创作的工作流,成为创意驱动的新引擎。

一站式 AI 创作平台

更简洁的交互,更丰富的编辑能力

剧本创作、分镜设计、素材编辑…… 传统的视频创作步骤分工明晰、周期冗长。在 AI 技术的加持下,原本分散在不同制作流程中的创作步骤,如今都可以在寻光平台上流畅完成。

“我们希望让视频编辑像操作 ppt 一样简洁直观,容易上手。” 达摩院视觉技术实验室高级算法专家陈威华在现场介绍,寻光平台的一大亮点在交互方面。

寻光平台在设计时便充分考虑到 AI 视频创作的特点,将每个视频项目抽象为多个分镜头画面,用户可根据剧本自动生成一组分镜头,也可以自己上传原始视频素材,由算法切分成多个分镜头。

在创作空间里,用户可以很方便的查看每一个分镜头,一个场景内的多个分镜头可以收起或者展开,场景之间可以通过拖拽来调整顺序,场景内的分镜头也可以进行拖拽。用户也可以在任意位置上进行分镜头的添加和新建,可调用图片生成或者视频生成能力去产生内容,也可以添加自己已有的各种素材。

对于每个分镜头,寻光提供完整且智能的 AI 视频编辑能力进行处理,可依据用户意图,在语义层面而不是像素层面实现编辑。分镜头里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。

比如,理解空间景深的运镜控制;

又比如,能够理解物体相对关系的目标消除 / 修改。

在对视频全局元素的编辑上,寻光平台提供了超过20种的风格迁移。

寻光也提供帧率控制、视频超分等实用的视频编辑功能。

“我们希望一个视频里的所有元素都是可编辑、可修改的,这样可以给用户的创作提供最大的自由度”,陈威华说。

写在最后

寻僧礼达摩

今天,我们正处在 AIGC 的变革浪潮之中,AI 有可能催生出新的视频工作流。无论是专业的影视从业者还是热爱创作的 UGC 用户,都将从中获益。

一加9r配置最新消息

“工欲善其事,必先利其器”,达摩院希望寻光视频创作平台能够成为每一位创作者的专属视频工作室,实现 AI 与创作者之间更紧密、高效的协作,真正释放 AI 的生产力。

为此,达摩院视觉技术实验室已做了大量技术储备。该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像 / 视频 /3D 内容生成,更加可控的图像 / 视频 /3D 内容编辑,更加高效的生成框架,多模态的理解 - 生成框架等。

陈威华表示,“寻光”将于近期开放内测,持续迭代,优化交互,欢迎创作者们来定制属于自己的 AI 工作流。

内测申请地址:

https://xunguang.damo-vision.com/


返回网站首页

本文评论
搭载联发科中端机CPU卖这个价? Moto Edge 40家族最新成员现身
Motorola Edge 40系列至今推出过Edge 40(下图)和Edge 40 Pro两款手机,消息指Edge家族很快将会迎来新成员,日前爆料者在社交平台发帖,公开了声称是Edge 40 Neo的规格数据。假如爆...
日期:08-15
BBWF 2023 | 广和通携手产业伙伴共促移动宽带生态建设_广和通官网
通信世界网消息(CWW)10月24-26日,世界宽带论坛(Broadband World Forum,BBWF 2023)在法国巴黎开幕,现场汇聚全球宽带产业链龙头企业,共同探讨宽带产品与技术发展趋势。全球领先的物...
日期:10-27
推特CEO只是马斯克的傀儡?
今年夏天的一个星期六,午夜时分,埃隆·马斯克(Elon Musk)突然宣布,他将放弃这个世界最具标志性的社交媒体品牌之一:推特。 他最后一次在推特上发帖称:“很快,我们就会告别推特品牌,...
日期:09-16
iPhone 5c正式被列为过时产品「iPhone 5c将被列为过时产品:教会安卓做塑料手机」
近日,苹果提供给授权服务商的备忘录显示,从今年11月1日起,苹果将把iPhone 5c标记为过时产品,终止所有相关维修和服务。这款在2013年9月发布,曾被列为一代神机的产品终于落幕。iPh...
日期:10-24
苹果iPhone 15 Pro全新菜单界面 静音拨片变操作按钮_苹果拨动静音键无反应
苹果于9月14日发布了iPhone 15 Pro和iPhone 15 Pro Max两款新手机,其中一项亮点是将静音拨片更改为操作按钮。这款新按钮不仅可以切换铃声和振动,还可以自定义其他选项。根据...
日期:09-14
冯小刚主演 中国版《忠犬八公》今日上映:日本版曾感动无数人「中国版忠犬八公的电影叫什么名字」
3月31日消息,今日,中国版《忠犬八公》正式在全国上映,电影时长2小时4分钟,发行版本包括2D、CINITY_2D、ATMOS_2D、CGS_2D等。该片由爱奇艺影业出品,徐昂执导,叶如芬监制,冯小刚、陈...
日期:04-01
骁龙8nm处理器「高通骁龙8 Gen2核心规格曝光:八核心架构 性能提升10%」
随着年底的临近,大家关注的焦点也逐步转移到了搭载新一代高通旗舰平台骁龙8 Gen2的新一代顶级旗舰上。据此前多方透露,高通将于11月14日至11月17日期间举行高通骁龙峰会,届时将...
日期:09-30
魅族无线局域网设置在哪里「魅族 Flyme OS 中文名定为“无界”:主打万物互联、无边无界」
IT之家 11 月 30 日消息,魅族 Flyme 中文 OS 名称现已正式公布 —— 无界。赵明否认荣耀据介绍,“无界”将主打“万物互联、无边无界”的特性,成为打通各种终端的底座。发布会...
日期:11-30
国家新闻出版署:2022年9月份国产网络游戏审批信息「国家新闻出版署公布了11月第二批国产游戏版号」
  2022年9月份国产网络游戏审批信息  来源:国家新闻出版署三星s10+前置摄像头跑马灯丰田同意向中国车企提供汽油-电动混合动力技术系统; 序号 名称 申报类别 出版单位...
日期:09-13
荣耀Play6C正式发布 起售价1099元_荣耀play6+128g多少钱
中关村在线消息:今日荣耀高性价比机型荣耀 Play6C正式发布,并且已经开启预售,起售价为1099元,将于10月13日正式发布。硬件配置方面,荣耀Play6C配有6.5英寸LCD屏幕,支持90Hz高刷以...
日期:10-16
白菜价存储最后的狂欢!Redmi Note 12 Turbo 16 1TB到手1903元_小米note128g
快科技10月14日消息,供应链消息指出,从今年第四季度开始,由于存储元器件成本的上升,笔记本电脑、手机等终端产品可能会面临价格的上调,这意味着内存、存储白菜价时代就此终结。如...
日期:10-15
Windows11用户数突破4亿 但市场份额仍低于Windows10_win10用户数量
10月19日 消息:根据内部报告,全球Windows11用户已超过4亿,但市场份额相对较低,需要2年才达到这一数字。相比之下,Windows10在不到一年内实现了类似的成就。随着2023年游戏玩家对...
日期:10-19
我国IPv6活跃用户达7.63亿!全球遥遥领先「我国ipv6活跃用户数达3.62亿」
7月3日至4日,第二届中国IPv6创新发展大会在浙江省金华市举办,会上首次发布了《中国IPv6产业发展报告(2023版)》。根据国家IPv6发展监控平台的数据,截至今年5月,我国IPv6活跃用户数...
日期:07-05
男子抱娃让孩子开车 还拍抖音分享 工作丢了「抱着娃娃开车扣几分」
近日,一名男子怀抱男童,让男童操控着方向盘在道路上行驶的抖音小视频,被网友举报。索尼手机xperia1 iv发布时间海信一机三筒洗衣机评价经查,该车是一辆出租车,车主就是视频中孩子...
日期:03-14
要考北大!汶川“敬礼娃娃”郎铮高考637分:15年前被埋20小时
6月23日起,2023年高考之后的查分开放了,很多家庭都为孩子的分数高兴,在这批人中还有个特殊的考生,那就是四川绵阳的郎铮,他15年前被称为敬礼娃娃”,这次的高考中获得了637分的好成...
日期:06-24
售价约2.5万元!苹果首款头显Vision Pro开启空间计算时代
通信世界网消息(CWW)6月6日凌晨,在苹果WWDC23开发者大会上,苹果正式推出首款MR头显设备Vision Pro,这是一款全新的计算设备,将带领人类进入“空间计算”时代。苹果CEO库克此前表示...
日期:06-06
不过兔年过猫年 越南也有春晚 网友:有VCD卓依婷那味了
春节不仅是我国最重要的传统节日,亚洲地区还有多个国家也是在这一天过年的,比如韩国以及越南,他们也深受中华文化影响。特别是是越南,不仅有春节,还有十二生肖,只不过有一些不同。...
日期:01-24
虎牙年营收「虎牙第二季度营收22.8亿元 Non-GAAP净利润590万元」
  红米note11和iqooz5  讯 北京时间8月16日下午消息,虎牙直播(NYSE:HUYA)今日公布了截至6月30日的2022年第二季度财报。财报显示,虎牙第二季度总净营收为22.752亿元(约合3.39...
日期:09-26
深入探索生物医药领域:资深行业专家揭示最新发展趋势_生物医药产业发展现状分析
(原标题:深入探索生物医药领域:资深行业专家揭示最新发展趋势) 吉利收购阿斯顿·马丁 近年来,生物医药行业以其快速发展和创新性...
日期:09-15
百度激进开放:从“圈企业”向SNS转移
  在2011年百度世界大会上,李彦宏穿着去年同款“百度牌”衬衣,展示了不一样的百度首页。   数万人在主会场围观“变脸”,分论坛站客大于坐客,大概只有中国互联网市值和流量...
日期:07-23