您的位置:首页 > 互联网

《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩

发布时间:2024-05-06 17:48:43  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:衡宇 梦晨,授权转载发布。

等了7分多钟,刚从北京闪现闪离的马斯克,他终于夸我是个人才:

好了,别骂诈骗,我全都招!

现在登录通义App(原通义千问),选择全民演唱功能,只需上传任意一张人物正面大头照,你也能玩儿了。

这个功能开放不到一周时间,但经量子位观察,还挺火。

热度一直没掉下去,关键是生成时间也跟热度一起高居不下,顺利的话几分钟生成的小视频,挤的时候排队能排出好几个小时开外,亏得是阿里云服务器没被挤爆(不是)。

从国内外的网友分享反馈来看,大家还挺喜欢文艺复兴,最受欢迎的片段是让个路人马轮番演唱《野狼Disco》。

泰国人申请支付宝

除了唱歌,还能把朋友放进(非)著名表情包念台词。

玩儿梗的人太多,以至于马斯克都给搞EMO了:

而这背后的“始作俑者”,就是来自阿里通义实验室的EMO,继Sora之后热度第二高的AI视频项目。

如今一个月过去,星标数已经直奔7k而去。

趁此热度,我们也得到了一个与EMO背后大佬,阿里通义实验室XR实验室负责人薄列峰当面催更的机会。

他表示在放心把技术开源之前,首先还是要解决安全问题。

负责人讲解背后技术

距项目公开仅2个月,通义实验室团队就直接将这一技术免费开放,但所有人都可以在通义APP(原通义千问)体验全新的AIGC玩法。

如果你想亲自上手试试,打开对话输入“EMO”直达或进入“频道”选择“全民舞台”即可。

选择喜欢的音频片段,并上传一张大头照。

如果在热门时段,需要等待40分钟到几个小时不等,但其实主要是在排队。薄列峰透露,单纯生成10秒视频,只需要10-15分钟。

对于上传的照片,系统首先会进行人脸检测,不过有些长得太像人的动物也能顺利蒙混过关!

比如撞脸莫言的小狗,就成功地骗过了系统。

但是撞脸余华的小狗就没那么幸运了,系统一下子就把它给识破了(没有任何对余华老师不敬的意思)。

苹果16pro是不是全面屏

为什么只需要上传一张图就能立即做到逼真效果?

薄列峰介绍,EMO的核心思路是“弱控制设计”,无需对整个面部建模,这一点甚至体现在了论文标题上。

在生成过程中,面部定位器(Face Locator)用来编码面部的边界框区域。

速度编码器(Speed Encoder)确保头部运动的速度与音频的节奏和强度相匹配。

这些控制机制被称为“弱控制”是因为它们提供的控制不是强制性的或硬性的,而是允许一定程度的自然变化和表现力。

例如,面部区域控制器并不严格限定面部的具体位置,而是给出了一个允许面部运动的较大区域。同样,速度控制器并不精确控制每一帧的速度,而是提供一个速度范围,让生成的头部运动接近但不一定完全符合指定的速度水平。

华为鸿蒙5g120hz手机推荐

通过使用这些弱条件,EMO框架能够在保持角色身份一致性的同时,生成具有丰富表情和自然头部运动的视频,从而在表达性和逼真度方面取得更好的效果。

比起传统的分别针对眼睛鼻子嘴等部位的建模方案,EMO更着重考虑整个面部的联合运动,最终效果也就可以做到自然流畅了。

另外薄列峰还透露,选择这个技术路线也是出于实用性、普及性的考虑。

一张图、一段音频,每个人都非常容易获取,门槛低一些,让大家都能玩起来。

关于EMO的技术选择,薄列峰还透露了一个消息。

虽然EMO使用传统基于U-net的扩散模型架构,但Pipeline是解耦的,如果后续尝试Sora同款DiT架构做到更好效果的话,也可以轻松切换过去。

对于未来发展方向,EMO目前只做了人头,将来还会扩展到半身、全身。到时候,能实现一张照片让人物同时唱跳RAP篮球也说不定。

高于平均水平的AIGC内容才会被消费

在此之前,EMO背后通义实验室所推项目中,最火的是与EMO一脉相承的Animate Anyone模型。

代表杰作:奶牛猫跳舞。

算法原理上,EMO和Animate Anyone都采用了Backbone + ReferenceNet的结构,实现有参考图像引导的去噪生成过程。

华为凌霄四核路由器怎么样

其中,Animate Anyone在实现了保留特定对象ID的生成式模型的基础上,进一步证明可以通过一些输入控制信号控制生成内容,特别是人物的动作。

所以其实背后团队是专注数字人的团队,没想到在通义App上包装成“全民舞王”后,大家对动物玩法更感兴趣。

一个多月前,团队还在全民舞王针对小猫小狗等动物主体检测做了一半优化,使上传动物照片的通过率大幅度提升。

即使检测出来用户上传的是动物,只要通过了骨骼检测,啥小动物都可以起来嗨。

“现在技术确实可以生成很多的图片、视频,但如果他们都是平均甚至低于平均水平,大家不见得有兴趣去消费。”薄列峰笑道,奶牛猫跳舞确实很妖娆,“这给我们把链路打通带来更多的思考——把简单高质量的内容,通过新技术去实现可能。”

聊天最后,薄列峰还给大家推荐了一个EMO的私房玩法:

可以试试拿自己5岁、10岁、15岁……的照片,自己对话,自己合唱。

值得一试哟~


返回网站首页

本文评论
手握8篇Nature的“天才少年”,将赴加州大学伯克利分校任教_伯克利天才博士
澎湃新闻记者 岳怀让95后天才少年曹原此前因连续在国际顶刊发文,被称为“石墨烯驾驭者”,备受国内外学术圈关注。比亚迪海豚上市直播澎湃新闻记者查询发现,加州大学伯克利分校(U...
日期:11-28
我国在建核电机组数量居全球第一!2035年核能发电量占比将达10%
据央视新闻报道,当前我国核电建设迎来高质量发展时期,在建核电机组数量居全球第一。摩托罗拉edge手机核能作为稳定可靠的清洁低碳能源,已成为我国能源向清洁化、低碳化转型的重...
日期:01-12
谷歌 Chrome 浏览器 Windows 版终于将支持“快捷键移动标签页”,Linux 和 macOS 版早已支持
  4 月 9 日消息,谷歌终于将在 Windows 版的 Chrome 浏览器中添加键盘快捷键重新排列标签页的功能。   这一功能已在 Linux 和 macOS 上提供多年,现在它有望在 Chrome fo...
日期:07-18
宣称“助农” 直播带货贵卖农产品谁最受益?_直播手中有招方能带货助农
  来源:工人日报  近段时间,主播辛巴在直播间质疑东方甄选售卖6元一根的玉米存在暴利等问题,引起关注。有人认为,“谷贱伤农”但“谷贵”也未必能“富农”。对此,有评论指出,...
日期:09-30
为了甲乙双方更好的合作「甲乙方合作就像谈恋爱,最好的承诺是手放开」
声明:本文来自于微信公众号 刀姐doris(ID:doriskerundong),整理|Even 编辑|刀姐doris,授权转载发布。本期推送为——播客《温柔一刀》Vol.33文字精选版,总字数为5191,预计阅读时间...
日期:11-25
广电的网络「广电特色网络怎么建?新华三在CCBN给出生动“范本”」
广电特色网络怎么建?新华三在CCBN给出生动“范本” 通信产业网|2024-04-25 09:18:52作者:党博文来源:通信产业网【通信产业网讯】(记者 党博文)近日,第三十届中国国际广播电视信息...
日期:04-25
小米汽车电池自研芯片挑战做冬季电车续航之王,小米汽车全栈自研电池管理系统
来源:中关村在线字节跳动是不是抖音公司12月28日下午两点,小米汽车技术发布会正式开始。小米电池安全,通过全球最严苛的热失效安全标准。行业顶级散热、隔热能力:17层高压绝缘防...
日期:12-28
美俄齐点赞,百度阿波罗“人气爆棚”!自动驾驶开放平台能力辐射全球97国
  百度Apollo已经赋能众多国际开发者“圆梦”自动驾驶, 美国的Ridecell团队也不例外。这是一家移动出行软件平台供应商,其自动驾驶车辆已经在旧金山湾区多个测试点展开路测...
日期:11-27
定档12月9日14:00 华为官宣冬季全场景新品发布会「华为十二月发布会」
就在刚刚,@华为手机 官方微博正式推送了华为冬季全场景新品发布会的时间为12月9日14:00,并公布了新品发布会的直播平台,并公布了官方合作媒体,中关村在线作为华为官方合作媒体将...
日期:12-09
光云科技旗下品牌“有成”受邀参与钉钉618直播,探索企业服务新方向
  一年一度的电商年中庆,狂欢618正在进行中。作为阿里巴巴集团旗下品牌,钉钉618也如火如荼的进行中。今年618宝藏钉钉首次试水直播带货,邀请了平台上紧密合作的ISV供应商入...
日期:07-14
刀郎低调入驻抖音 一个作品未发 粉丝5天疯狂增长500万
8月22日消息,刀郎最近突然又火了,在涨粉界也是天花板,短短5天时间疯狂涨粉500万,这速度几乎无人能及。8月16日,刀郎正式入驻抖音平台,但并未大张旗鼓地宣传,这和他的新专辑《山歌廖...
日期:08-22
路面积水淹没车轮!郑州暴雨有多大:有些地方雨强超720 但不会持久
7月11日23时25分,郑州市气象台发布暴雨红色预警信号。过去3小时,郑州市郑东新区白沙镇降水量已达90.2毫米。有网友拍到,郑州市区有地段积水严重,路边停靠的轿车车轮被淹没。预计...
日期:07-12
鲁大师(03601)早盘高开12.32% 疑与九号科技达成战略合作进军电动摩托车市场?
  智通财经APP获悉,鲁大师(03601)附属成都安易迅与九号科技在智能化硬件的内容服务相关领域开启合作。截至9时20分,涨12.32%,报价3.19港元,成交额133.98万。   公告称,于202...
日期:07-10
零一万物API开放 多模态中文图表体验超越GPT-4V
要点:1、零一万物API正式开放,提供三款模型,支持通用聊天、多文档阅读理解、多模态输入等功能。iphone 14plus系列正式亮相2、多模态模型Yi-VL-Plus在中文图表体验上超越GPT-4...
日期:03-22
iba西门子「IBM携手西门子,助力企业实现高效、可持续的产品开发与运营」
北京2023年4月25日 /美通社/ -- 西门子数字化工业软件 (Siemens Digital Industries Software) 与 IBM近日宣布,共同打造一套集成了双方的系统工程、服务生命周期管理和资产...
日期:05-08
小米14首发!光影猎人传感器揭晓:1/1.31大底、功耗降低42%_小米光照传感器玩法
快科技10月24日消息,小米14将于10月26日晚7点正式发布。作为小米数字旗舰,影像自然是最重要的亮点,这次小米14将首发全新的光影猎人”传感器。据光官方介绍,这是小米专门定制的...
日期:10-25
小米civi3将配备67w充电和imx800摄像头_小米civi有没有870
根据最近的爆料,小米civi3将配备67w充电和imx800摄像头。这款手机预计将于5月发布,可能会配备联发科处理器,可能是dimensionity 8200。小米civi3预计将是一款轻薄的手机,专注于...
日期:04-21
“FACKBOOK"创始人扎克伯格当选"时代”年度人物(fackbook创始人的故事)
  美国知名社交网站“脸谱”创始人兼首席执行官马克·扎克伯格去年底获评美国《时代》周刊2010“年度人物”。   这家刊物给出的理由是,“脸谱”网站打破传统沟通方式,为...
日期:07-25
新浪微博勋章体系改版升级 强化社区互动体验(微博等级怎么升)
    “新版微博勋章将于明天(21日)升级啦,勋章种类将更丰富、规则更有趣、样式更形象。升级后您现有的勋章不会丢失,她们都会变成最新的名称和样式,同时您还可以方便的设置...
日期:07-30
超过 8000 名作者签署公开信 呼吁人工智能公司尊重版权并补偿作家
7月19日消息:包括 Margaret Atwood 和 James Patterson 在内的 8000 多名作者签署了一封公开信,要求人工智能公司在未经许可的情况下使用他们的作品来训练人工智能,并要求他们...
日期:07-19