您的位置:首页 > 互联网

兵马俑考古玩具复活军团「央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?」

发布时间:2024-07-04 10:46:56  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

沉睡了两千多年的兵马俑,苏醒了?

一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。

青海长云暗雪山,孤城遥望玉门关。古调虽存音乐变,声音依旧动人情:

兵马俑复活兵团值得一看吗

这场表演背后的AI 复活召唤术,叫做 EMO,来自阿里巴巴通义实验室。仅仅一张照片、一个音频,EMO 就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬顿挫。

背带裤搭配什么上衣好看

在央视《2024中国・AI 盛典》中,同样基于 EMO 技术,北宋文学家苏轼被复活,与李玉刚同台合唱了一曲《水调歌头》。AI 苏轼动作古朴自然,仿佛穿越时空而来:

在 EMO 等 AI 领域前沿技术的激发下,首个以人工智能为核心的国家级科技盛宴《2024中国・AI 盛典》盛大开幕,以媒体 + 科技 + 艺术的融合形式将最前沿的国产 AI 技术力量传递给节目前的每一位观众:

复活兵马俑里的表演好不好看

这不是 EMO 第一次出圈。曾在社交媒体爆火的高启强化身罗翔普法,也是出自 EMO 之手:

复活兵马俑剧怎么样

登陆通义 APP 之后,借助玩家各种脑洞大开的试玩,EMO 火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用,进入频道选择全民舞台,就可以丝滑体验了。

复活 兵马俑

实际上,早在今年2月,通义实验室就公开了 EMO(Emote Portrait Alive) 相关论文。这篇论文上线之初就好评如潮,更是有人称赞:EMO 是一项革命性的研究。

复活的兵马俑值得看吗

  • 论文地址:https://arxiv.org/pdf/2402.17485

  • 项目主页:https://humanaigc.github.io/emote-portrait-alive/

为什么它能获得如此高度的评价?这还要从当前视频生成技术的发展现状和 EMO 的底层技术创新说起。

如此出圈,EMO 凭什么?

微信公众平台投票怎么做

过去几年,AI 在图像生成方面的成功是有目共睹的。当前,AI 领域的研究热点是攻克一个更困难的任务:视频生成。

EMO 面对的恰好是其中非常难的一项任务:基于音频驱动的人物视频生成。

不同于常见的文生视频和图生视频玩法,基于音频驱动的人物视频生成是一个从音频直接跨越到视频模态的过程。这类视频的生成往往涉及头部运动、凝视、眨眼、唇部运动等多个要素,且要保持视频内容的一致性和流畅度。

在此前的方法中,模型大多先针对人脸、人头或者身体部分做3D 建模或人脸关键点标记,以此作为中间表达再生成最终的视频。但借助中间表达的方法可能会导致音频中的信息被过度压缩,影响最终生成视频中的情绪表达效果。

通义实验室应用视觉团队负责人薄列峰表示,EMO 的关键创新点弱控制设计很好地解决了上述问题,不仅降低视频生成成本,还大幅提升了视频生成质量。

弱控制体现在两个方面:首先,EMO 无需建模,直接从音频中提取信息来生成表情动态和嘴唇同步的视频,从而在不需要复杂预处理的情况下,端到端地创造出自然流畅且表情丰富的人像视频。其次,EMO 对生成表情和身体动作不做过多控制,最终生成结果的自然和流畅,都是源于模型本身对高质量数据的学习而训练出的泛化能力。

拿兵马俑和宝石 Gem 同框对唱《从军行》来说,歌声中所要传达的情绪(如激扬)在其面部得到了很好的展现,不会给人违和感:

霸屏广告可以屏蔽吗

复活 兵马俑

基于弱控制的理念,研究团队为 EMO 模型构建了一个庞大而多样的音视频数据集,总计超过250小时的录影和超过1.5亿张图像,涵盖各种内容,包括演讲、电影和电视片段以及歌唱表演,包括中文和英文在内的多种语言,视频的丰富多样性确保了训练材料捕捉了广泛的人类表达和声音风格。

学界有一种观点是,对于一个数据集最好的无损压缩,就是对于数据集之外的数据最佳泛化。能够实现高效压缩的算法往往能够揭示数据的深层规律,这也是智能的一个重要表现。

因此,团队在训练过程中设计了高保真数据编码算法,保证了在压缩或处理数据的过程中,尽可能保持原始信息的丰富细节和动态范围。具体到 EMO 的训练上,只有音频信息完整,人物情绪才能很好的展现。

复活的兵马俑表演

视频生成赛道风起云涌

通义实验室如何跻身全球第一梯队?

今年2月初,Sora 的发布点燃了视频生成赛道,背后的多项技术随之受到关注,其中就包括 DiT(Diffusion Transformer )。

我们知道,扩散模型中的 U-Net 能模拟信号从噪声中逐渐恢复的过程,理论上能够逼近任意复杂的数据分布,在图像质量方面优于生成对抗网络(GAN)和变分自编码器(VAE),生成具有更自然纹理和更准确细节的现实世界图像。但 DiT 论文表明,U-Net 归纳偏置对扩散模型的性能并非不可或缺,可以很容易地用标准设计(如 Transformer)取代,这就是该论文提出的基于 Transformer 架构的新型扩散模型 DiT。

最重要的是,以 DiT 为核心的 Sora 验证了视频生成模型中仍存在 Scaling Law ,研究者们可以通过增加更多的参数和数据来扩大模型规模实现更好的结果。

DiT 模型在生成真实视频方面的成功,让 AI 社区看到了这一方法的潜力,促使视频生成领域从经典 U-Net 架构转变到基于 Transformer 的扩散主干架构的范式。基于 Transformer 注意力机制的时序预测、大规模的高质量视频数据都是推动这一转变的关键力量。

但纵观当前的视频生成领域,尚未出现一个大一统架构。

EMO 并不是建立在类似 DiT 架构的基础上,也就是没有用 Transformer 去替代传统 U-Net,同样能够很好地模拟真实物理世界,这给整个研究领域带来了启发。

未来,视频生成领域会出现哪些技术路线?不管是理论研究者还是从业者,都可以保持相对开放的期待。

薄列峰表示,本质上,当前的语言模型、图像 / 视频生成模型都没有超越统计机器学习的框架。即使是 Scaling Law ,也有自身的限制。尽管各个模型对强关系和中等关系的生成把握比较精准,但对弱关系的学习仍然不足。如果研究者们不能持续提供足够多的高质量数据,模型的能力就难以有质的提升。

换个角度来看,即使视频生成领域会出现一种占据半壁江山的大一统架构,也并不意味其具备绝对的优越性。就像是自然语言领域,一直稳居 C 位的 Transformer 也会面临被 Mamba 超越的情况。

具体到视频生成领域,每种技术路线都有适合自身的应用场景。比如关键点驱动、视频驱动更适合表情迁移的场景,音频驱动更适合人物讲话、唱演的场景。从条件控制的程度来说,弱控制的方法很适合创意类任务,同时很多专业、具体的任务更能受益于强控制的方法。

通义实验室是国内最早布局视频生成技术的机构之一,目前已有文生视频、图生视频等多个方向的研发积累,特别是在人物视频生成方面,已经形成了包括物动作视频生成框架 Animate Anyone、人物换装视频生成框架 Outfit Anyone、人物视频角色替换框架 Motionshop、人物唱演视频生成框架 Emote Portrait Alive在内的完整研究矩阵。

兵马俑考古玩具复活军团

更多项目请关注:https://github.com/HumanAIGC

比如在 EMO 之前,Animate Anyone 一度霸屏社交媒体和朋友圈。该模型解决了人物运动视频生成中保持人物外观短时连续性和长时一致性的问题,随后上线通义 App全民舞王功能,掀起了一波全民热舞小高潮。

从技术到现实世界

过去两年,语言模型展现了强大的对话、理解、总结、推理等文本方面的能力,图像生成模型展现了强大的自然生成、娱乐和艺术能力,两大赛道都诞生了很多爆款产品。这些模型的成功至少告诉我们一点:想在这个时代取得影响力的技术团队,需要学会基础模型和超级应用两条腿走路。

目前,视频内容呈现爆发式增长的趋势,人们都在期待能够出现一个人人可用且实用的 AI 视频生成平台。EMO 可能是打破这一局面的重要技术突破,通义 App 则提供了一个技术落地的广阔平台。

视频生成技术的下一个挑战,是如何攻克专业级的内容。

120000米是多少平方米

科技公司们希望将 AI 技术转化为真正的生产力工具,去服务短视频博主、影视制作人、广告和游戏创意人。这也是为什么视频生成应用不能只停留在通用内容的水准。

环顾目前大部分的视频生成应用,大多是基于3到5秒的视频生成模型,在应用和体验上的限制比较明显。但 EMO 技术对于音频时长的包容度很高,而且生成内容质量可以达到演播标准。比如登陆央视的这段兵马俑唱演,全程四分钟的兵马俑部分表演视频无一秒需要人工后期针对性微调。

如今看来,以 EMO 为代表的人物视频生成技术是最接近专业级生成水准的落地方向之一。相比于文生视频技术中用户 Prompt 存在的诸多不确定性,EMO 技术高度符合人物视频创作对内容连贯性和一致性的核心需求,展示了极具潜力的应用空间。

EMO 之所以出圈,人们看到的不光是研发团队的技术实力,更重要的是看到了视频生成技术落地的加速度。

人均专业创作者的时代,或许不远了。


返回网站首页

本文评论
自动驾驶融资情况_自动驾驶融资同比增长140%,头部公司蘑菇车联领衔商业化落地
  随着商业化进程提速,自动驾驶有望在2021年迎来爆发元年,行业市场规模将超2350亿元。面对这一市场红利,大批资金正在疯狂涌入,企查查数据显示,2020年国内自动驾驶企业披露融...
日期:07-22
湖南移动联合中兴通讯在张家界荷花机场完成湖南首个5G-A通感基站开通
通信世界网消息(CWW)近日,湖南移动联合中兴通讯、张家界荷花机场率先完成湖南首个5G-A通感一体化基站部署开通,开启5G-A通感赋能智慧机场新征程。糖猫词典笔对话翻译怎样使用纽...
日期:04-11
人形机器人将进宝马工厂实习 之前它还只会冲咖啡_人形机器人厂家
声明:本文来自于微信公众号 元宇宙日爆(ID:MBNews),作者:木沐,授权转载发布。前段时间,名为“Figure01”的机器人因会冲咖啡而走红。这两天,它还找到了新工作,要去宝马的美国工厂“...
日期:01-23
末位淘汰、倒排需求不得不加班 跨境电商Shopee研发员工猝死-前员工
6月21日消息,据媒体报道,近日,跨境电商平台Shopee发生一起研发人员猝死事件。据前员工透露,自2021年起,Shopee实行绩效末位淘汰制度,同时推行倒排需求工作模式,导致员工不得不加班...
日期:06-21
从“纳税”到“携号转网”   那些年你关注过哪些两会热词
  俗话说:“金窝银窝,不如自己的狗窝”,你所在城市的房价是涨是跌,也让你的心里七上八,直问“何时眼前突兀见此屋”? 回顾刚刚过去的两会,房产税三个字可谓狂刷存在感。继3月5...
日期:10-28
突飞猛进的运营商云:一边下沉,一边搞AI基建
声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:刘雨琦,授权转载发布。运营商云们来势汹汹,2023上半年,天翼云总体营收已经逼近中国第一的阿里云,云市场的竞争规则正...
日期:08-17
ailp模型「StreamingLLM:让AI模型无限期平稳运行的一种方法」
要点:三星lg合作计划1. Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员介绍了一项名为StreamingLLM的技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的...
日期:10-08
金篆转换「云卷数潮!金篆GoldenDB亮相中国移动算力网络大会云原生数据库论坛」
通信世界网消息(CWW)4月27日-29日,中国移动算力网络大会于苏州举办,中兴通讯以“兴智能 新纪元”为主题参展,助力中国移动深入实施“以网强算”理念,共同开启AI+新时代。金篆Golde...
日期:05-02
联想集团入选2023福布斯中国AI算法创新应用企业TOP 30_联想创投排名
(原标题:联想集团入选2023福布斯中国AI算法创新应用企业TOP 30) 去年年底以来,ChatGPT的问世带来了AI的iPhone时刻,由AIGC开始推...
日期:10-23
支付宝推出“喜气红包”:印有二维码 扫码直接到账余额_支付宝惊喜红包
快科技1月4日消息,收到一张红包,满心欢喜拆开来发现只有一张印着二维码的纸?千万别扔!!原来,这是支付宝推出的喜气红包”,支付宝搜喜气红包”即可尝鲜。iqoo256g上市时间喜气红包是...
日期:01-05
恒生指数今天为什么下跌_恒生指数开盘涨0.83% 美团开涨超3%
高通智能汽车 查看最新行情   讯 8月17日上午消息,香港恒生指数开盘涨0.83%。恒生科技指数涨0.99%。美团开涨超3%,从昨日跌势中反弹。昨日有消息称腾讯将...
日期:08-18
突发 小米印度高管主动请辞_小米印度总经理辞职
小米印度官方公布消息称,首席商务官Raghu Reddy已辞职,将在外部寻求新的发展机会。Raghu Reddy在加盟小米之前,他曾在软银集团旗下的印度电商平台SnapDeal担任高管。在小米印度...
日期:12-09
fff3「FF第三季度首次创收 已向新用户交付7辆FF91」
11月14日 消息:法拉第未来(FF)近日在官网发布了一篇名为《致股东信》的文章,公布了2023年第三季度的业绩。据财报显示,FF净亏损7800万美元,汽车销售收入仅为55.1万美元。然而,令人...
日期:11-14
从VR试妆到AI应用,Lazada的东南亚爆品方法论_东南亚电商平台 lazada
声明:本文来自于微信公众号 罗超频道(ID:luochaotmt),作者:罗超,授权转载发布。2018年9月,李佳琦成功挑战“30秒涂口红最多人数”的吉尼斯世界纪录,并成为涂口红的世界纪录保持者...
日期:05-16
人大代表李东生两会呼吁:企业要勇于投资未来,驱动中国经济持续增长
3月7日,2024年全国两会广东代表团如期举行了开放团组会议。会议中,代表们对政府工作报告进行了深入审议,并仔细审查了计划报告及预算报告的相关草案。全国人大代表,TCL创始人、...
日期:03-13
特斯拉新车3天三次趴窝 买回来就开几小时要退/换车:官方回应「特斯拉多久可以退车」
据黄金眼1818报道称,龚先生反映,22号提了一辆特斯拉MODEL Y,才开几个小时,就跳出故障提示,紧接着趴窝了。同样的故障,在之后两天连续出现,他要求退车或换车。我们列出了汽车三包法...
日期:11-29
iQOO 12系列或将搭载6400万像素潜望长焦镜头
近日,有可靠人士爆料,iQOO 12将会配备6400万像素长焦摄像头。根据爆料,iQOO 12将搭载一颗OV64B传感器,并配备3倍光学变焦镜头,同时还具有光学防抖功能。据悉,iQOO 12的主摄...
日期:10-10
集成5g芯片的手机_5G手机核“芯”大比拼 谁在引领5G芯片潮流?
  随着国内5G SA网络的规模化部署,5G手机的购买需求及购买意愿迅速激增,那么购买5G手机的时候人们应该注意哪些问题呢?5G手机中哪些5G芯片性能表现更加优秀呢?   近期,...
日期:07-16
美国芯片巨头集体“雪崩” 市值蒸发10.7万亿元!_美国芯片股暴跌1000亿美元
11月10日消息,据外媒报道,截止到目前,在美上市的半导体企业的总市值“蒸发”了1.5万亿美元,折算成人民币大约是10.7万亿元!在这种情况下,约30家美芯片企业下调了收入预期。看得出...
日期:11-15
特斯拉计划斥资30至40亿美元收购Nvidia芯片_2019年5月,特斯拉已斥资2.35亿美元收购了动
通信世界网消息(CWW)近日,特斯拉首席执行官埃隆·马斯克在社交平台上发布消息,透露特斯拉可能会投入30亿至40亿美元,用于收购芯片制造商Nvidia的产品。此消息一出,立即在业界引起...
日期:06-06