您的位置:首页 > 互联网

让四郎开口唱“朕EMO啦”,硬刚Sora的国产AI视频工具爆红!_唤朕四郎

发布时间:2024-05-11 10:05:44  来源:互联网     背景:

声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:石濑,授权转载发布

“嬛嬛,朕emo啦!”

此前,一位名为“奶茶小肥仔”的博主靠模仿陈建斌的声线唱歌走红,“朕emo啦”“朕能不能睡中间”等网络热梗广为流传。新榜旗下数据工具新抖显示,“奶茶小肥仔”在抖音半年粉丝量飙升370万。

在他的视频中,网友往往只能看到《甄嬛传》的素材剪辑,如今,一款EMO模型的出现,让网友直接看到了“皇上开口唱歌”这一毫无违和感的画面。

近期,阿里通义实验室研发的AI视频生成模型“EMO”上线通义APP“全民舞台”频道,经测试,只需上传一张大头照,就可以让人物照片动起来,根据App预置的音频模板生成演唱视频。

阿里EMO模型于今年2月公开技术论文,产品化仅用了两个多月的时间。

从官方演示被一众科技圈KOL轮番转发、引爆话题度,到4月25日正式上线通义App,传出服务器一度被挤爆。

这款被外媒誉为“Sora之后最受期待的大模型之一”,真实使用效果究竟如何?Sora引发新一轮AI视频生成浪潮,国内大厂中为什么频频出圈的是阿里?“头号AI玩家”进行了一番探究。

让四郎开口唱上春山,阿里EMO模型上线通义App

唤朕四郎

一张图片就能生成唱歌视频了!

想听玛丽莲梦露唱《科目三》?安排!

想让《甄嬛传》的四郎开口唱“嬛嬛朕想睡中间”?安排!

以上两段视频,都是在通义App中用一张图片自动生成的。

唤朕四郎

4月25日,EMO模型正式上线通义App,EMO是Emote Portrait Alive的缩写,作为一款音频驱动的肖像视频生成框架,EMO可以根据输入视频的长度生成任意持续时间的视频。今年2月,阿里巴巴发布了这款全新的生成式AI模型EMO并公布了技术论文(链接已同步至文末)。

论文信息显示,在EMO之前的肖像说话(Talking Head)技术需针对人脸或身体部分做3D建模,通义实验室率先提出了弱控制设计,无需建模就可驱动肖像开口说话,大大降低了视频制作成本;

此外,EMO还学习并编码了人类表达情绪的能力,可以匹配音频内容和人物的表情、嘴型,还能将音频语气特征和情绪色彩呈现到人物微表情上。

通义实验室给出了诸多视频案例,比如,重温张国荣开口唱歌的魅力;为高启强配上罗翔老师的讲法律的语音,演一出遵纪守法的小课堂。

头号AI玩家,赞14

目前,通义App上线了80多个EMO模板,包括“啊哈哈”李玉玲语音、“钵钵鸡”等网络热梗语音素材,还有《上春山》《野狼disco》等热门歌曲。

唤朕四郎

打开通义App,进入“全民舞台”频道,选择相应音频模板,上传人物大头照,就可以制作出打破次元壁的视频。

有网友打开脑洞,让兵马俑穿越到现代,唱起《科目三》;还有网友让蒙娜丽莎和玛丽莲梦露开口说起中文;甚至让灭霸唱起《野狼Disco》。

据头号AI玩家观察,语音模板时长集中在10秒到20秒之间,EMO刚上线时需排队数小时,目前一条视频的制作等待时间在十分钟到二十分钟左右。

玩家实测制作了十余条视频发现,通义App生成的AI视频人物的不仅嘴型和声音贴合自然,连眨眼细节也处理得不错,表情生动栩栩如生,堪称毫无违和感。

但若反复观看,仍能看出AI的痕迹,人物的情绪与台词贴合不够紧密,比如马斯克笑着唱“不想上班”,山姆奥特曼略带凶狠地喊“你算是踢到棉花啦”。

虽然EMO对人类情绪的学习捕捉能力仍有进步空间,但当下的AI视频已经达到以假乱真的程度,存在被滥用的风险。

据澎湃新闻报道,为防止对口型技术被滥用,通义实验室团队在应用内预置了经过审核的音频模板,暂不开放用户在EMO中自定义音频功能和API(应用程序编程接口);此外,平台会对用户生成内容进行算法和人工两道审核,确保内容安全。

大厂逐鹿AI视频生成赛道,为什么阿里能屡屡破圈?

无论是让照片跳舞的“全民舞王”,还是让照片演戏唱歌的“全民唱演”,这些搭载在通义App(原通义千问App)上的AI视频热门玩法,都是基于阿里巴巴通义实验室在人物视频生成模型上的研究成果。

阿里巴巴通义实验室XR团队负责人薄列峰曾在2024中国生成式AI大会上透露,人物视频生成模型是其团队研究的重点,基于人物动作、人物换装、人物替身、人物唱演4个框架的应用正逐步落地通义App。

“全名舞王”背后的技术是人物动作视频生成框架Animate Anyone,该框架能够根据单张图和动作序列,输出可控的人物动作视频。而“全民唱演”则基于人物唱演视频生成框架Emote Portrait Alive,它能够根据单张图和音频,输出准确的人物唱演视频。

目前,“全民舞王”和“全民唱演”都已整合在通义App频道菜单栏的“全民舞台”入口中。

安卓小尺寸旗舰

据头号AI玩家不完全统计,自去年11月份以来,国内大厂加大了在AI视频生成领域的研发投入。其中,字节跳动的动作最为频繁。无论是高层人事调整还是模型研发,都显露出字节积极布局AI视频生成领域的决心。

然而,在引爆C端话题上,阿里却始终更胜一筹。

一键让照片跳舞的“全民舞王”是基于视频生成模型Animate Anyone打造的。去年12月,该项目对外只发布了研究论文和演示。同一时期,字节跳动也发布了一个主打TikTok热舞的图生视频模型Magic Animate,还率先上线开源模型社区HuggingFace方便用户在线体验。

不过,由于使用步骤繁琐且生成等待时间较长,Magic Animate并没有在AI圈之外的C端用户群体中引起较大波澜。

相比之下,与EMO模型一样,Animate Anyone也迅速在2个月不到的时间里从模型正式落地应用端。由于使用门槛足够低,内置舞蹈模版足够丰富——涵盖科目三、鬼步舞和DJ慢摇等12种热门舞蹈,吸引了不少网友下载试玩。

最终凭借某西安网友整活的兵马俑跳“科目三”冲上微博热搜,背后的阿里通义App也随之一举破圈。

颇有意思的是,字节跳动的MagicAnimate和阿里的Animate Anyone,双方项目论文发布时间仅相差一天。

彼时,有网友戏称这是“淘宝买家秀”与“抖音舞蹈秀”之间的对决。

但恐怕所有人都没预料到的剧情是,原本在抖音上走红的魔性舞蹈“科目三”,阴差阳错之下成了“全民舞王”破圈的契机。

如今,国内各大平台上涌入了大量“全民舞王”生成的舞蹈视频。

顶流之一莫过于这只舞姿妖娆动人的奶牛猫。

目前,话题#会跳舞的奶牛猫#在小红书上已有9000万次浏览。

围绕萌宠跳舞,不少博主出的制作教程都获得了不错的流量。此外,一些网友不仅将跳舞的奶牛猫制作成了表情包,还通过绿幕抠像将其运用在了猫meme视频的创作中,促进了内容二次传播。

2024中国生成式AI大会上,薄列峰提出了一个关于AIGC内容的思考:很多生成的视频画质是OK的,模型可以生成这个世界上不存在的物种也很有意思,但你会长期去消费这样的内容吗?

“我觉得在做AIGC内容生成之前,不管是基础研究还是应用思考,大家都在高速迭代,每个人都有自己的思考和对这个问题的答案。”薄列峰表示。

从“全民舞王”到如今的“全民唱演”,阿里或许给出了问题的答案,让AI技术与用户建立起真正的联系,与人们的生活、娱乐和社交紧密联系在一起,才是AIGC内容发展的长远之道。

EMO技术论文:

https://humanaigc.github.io/emote-portrait-alive/?ref=top.aibase.com


返回网站首页

本文评论
百度地图api实时定位_搜狗地图推三维地图API 九月下旬推语音导航
   近日,老牌互联网地图服务商搜狗地图正式对外开放三维地图API。三维地图API的开放,让地图应用的展现更加形象、逼真,网民可以在二维、卫星和三维地图之间自由轻松切换,将...
日期:07-22
雨林木风Ylmf OS 4.0正式发布(组图)_雨林木风OS
易用性是Ylmf OS的最大追求昨天得知Ylmf 4.0正式版发布了。从山寨版的XP,到Ylmf 3.0(《仿Win XP 雨林木风Ylmf OS 3.0借鸡生蛋》),再到如今的Ylmf 4.0(《雨林木风又回来!Ylmf4.0...
日期:07-28
比亚迪大动作:部分新车将搭载交互式车载KTV「比亚迪车机k歌用哪个软件」
快科技8月7日消息,比亚迪宣布与音乐媒体科技公司Stingray达成合作。比亚迪计划从2023年起将在部分新能源汽车上搭载Stingray交互式车载KTV产品,并将面向全球多个市场推出,为用...
日期:08-08
新年第一周新势力销量榜:问界超理想夺得销冠
快科技1月9日消息,理想汽车发布了2024年第一周的造车新势力品牌销量排行榜。小米civi系列手机价格具体来看,问界汽车单周销量达到了0.59万辆,近期首次超过理想汽车,拿下了新势力...
日期:01-09
家长注意!今起儿童坐火车必须持有效身份证件:忘带有这些办法
7月20日消息,现在正值暑运高峰,计划带孩子出门的家长要注意了,今天起,儿童(含免费乘车儿童)乘车时,必须携带本人有效身份证件才能在各火车站乘车。美国电信运营商提供一加5g手机据...
日期:07-20
学而思发布学习机新品xPad2 Pro系列,打造专业极致学习体验_学而思教学互动平台
12 月 19 日,学而思正式发布学习机新品xPad2 Pro系列,在学而思一代学习机xPad1 基础上进行了全面升级。通过学而思自研内容体系、全场景精准学、依托自研大模型的多项AI能力,以...
日期:01-02
高通相机产品管理副总裁:三到五年内手机摄影将超越单反「佳能高管谈中国相机市场:无反相机接受度高」
9月30日消息:日前高通公司相机产品管理副总裁 Judd Heape 在接受AndroidAuthority 采访时表示,由于人工智能技术的创新,智能手机将在未来几年内超越单反相机,并有效地使其被淘...
日期:10-03
宇树四足机器人引爆2023世界人工智能大会,成为瞩目焦点「宇树机器狗价格」
7月6日至8日,中国上海举办了世界人工智能大会(WAIC),吸引了来自全球各地的AI领域专家和企业家参加,共同探讨人工智能技术的最新进展和未来发展趋势。本届大会的主题是“智联世界...
日期:07-08
PC迎来AI时刻,英特尔、微软、联想等纷纷布局,产品价格将迎上涨
出品 | 科技作者 | 梁昌均当手机厂商都在抢着落地大模型时,另一主流终端PC也来凑热闹。颇为相似的背景是,无论是手机,还是PC,近些年都陷入增长天花板,尤其是PC在过去两年几乎陷入...
日期:12-13
华为Mate 50紧急补货:4999原价 别找黄牛加价买「华为mate40黄牛价格」
华为Mate 50系列已经第二批陆续补货了,目前华为Mate 50由于产品实力不错,而且产品本身优势很大,又是时隔两年的Mate系列旗舰,所以从首销开始就格外火爆,首销当日刚刚发售不到几秒...
日期:10-04
高铁为啥不让抽烟?「吸烟致高铁降速被拘留 中国铁路科普为何高铁上不能吸烟」
快科技4月8日消息,乘坐高铁时,大家很可能听到过以下广播:动车组列车全列禁止吸烟,吸烟者将被处以500元以上、2000元以下的罚款。”中国铁路官方今日通过实际案例,再次强调了高铁...
日期:04-09
中兴Axon 50 Ultra背面照官宣:双操作系统,独立安全芯片
中兴官方近日公布了新一代 5G 安全手机 Axon 50 Ultra 的亮相时间,将于4月12日13:30在中兴行业终端峰会暨春季新品发布会上正式发布。据悉,该机将是行业首款支持卫星通信的 5G...
日期:04-12
科技扎根全球,海尔获选GlocalIN中国全球化企业之科技面孔Top50_海尔集团全球化品牌战略
  近日,《麻省理工科技评论》中国、DeepTech与领英中国一道,正式发布了“GlocalIN中国全球化企业之科技面孔Top50”,从工业机器人、医疗健康、智能硬件、新能源四大领域,客观...
日期:12-01
虎牙2022年Q3营收23.8亿元 移动端MAU为8600万_虎牙去年营收
凤凰网科技讯 11月15日消息,虎牙公布2022年第三季度财报。财报显示,2022年第三季度,虎牙公司总收入为23.8亿元,上年同期为29.755亿元。在非美国通用会计准则下,该季度归属于虎牙...
日期:11-16
抖音宣传售卖平台禁售商品什么意思「抖音电商平台加强口罩等防护类商品发布管理」
12月22日 消息:今日,抖音电商发布了关于加强抖音电商平台防护类商品发布管理公告。本公告于2022年12月22日生效执行。vivox60支持55w快充吗公告称,平台近期收到消费者反馈部分...
日期:12-22
美股周一:三大股指全线上涨,热门中概股普涨,小鹏涨逾15%_上周美股三大指数
4月18日消息,美国时间周一,美国收盘主要股指全线上涨。直到收盘前最后一小时,美股大部分时间都是下跌的,原因是华尔街分析师对第一季度财报以及再次出现盈利下滑的前景仍感到悲...
日期:04-18
沃尔玛“再攻”流媒体
魅族18降至冰点价求销量   来源:北京商报   当地时间8月16日,美国最大传统零售商沃尔玛公布了截至7月31日的2023财年第二财季业绩报告。沃尔玛第二财季营收1528.6亿美元,但...
日期:08-17
一用户微信转账2万转错人 法院判决全返_微信转账错人了
2月8日 消息:据人民法院报报道,近日,广西壮族自治区靖西市人民法院审理了一起微信转错账案件,最终,法院判决被告宋某于判决生效之日起十日内向原告何某返还2万元。2022年9月,何某...
日期:02-09
赵明谈荣耀聚焦端侧AI:将AI平台化 重构操作系统
快科技1月12日消息,荣耀昨晚正式发布了荣耀Magic6系列旗舰新机,首次搭载MagicOS8.0,在AI性能上有巨大提升。苹果手机14上市了吗在发布会后的群访中,荣耀CEO赵明表示,荣耀计划把AI...
日期:01-13
同程收购美豪商业旗下轻资产加盟部分,美豪酒店还将负“重”前行
聚划算中位价什么意思罗永浩开发的app华为ceo任正非图片来源:视觉中国小米note顶配版评测   记者 |谢亦欣   8月15日,界面新闻从天眼查处获悉,上海美豪商业管理有限公司(下...
日期:08-17