您的位置:首页 > 互联网

国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动_国产speak

发布时间:2024-03-14 12:54:48  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】国产Sora来了!这家公司的AI视频已经实现了15秒4K60帧的超逼真效果。而且,它和小米、快手都已展开战略合作,瞄准了500亿美元的短剧出海市场。

OpenAI的Sora,现在是彻底把AI视频的场子给热起来了。

不仅Stable Video立马上线了公测,而且Pika也随即拿出了给视频对口型的Lip Sync,以及可以根据内容自动生成声音的音效生成功能。

LTX Studio则另辟蹊径,上线了电影制作平台,把视频生成、编辑、剪辑、旁白一条龙全包了。

而国内的脚步,也正紧紧跟随。

就在3月5日的超讯通信X七火山大会上,一段高清4K文生视频,让在场观众惊呼连连。

而作为背后工具的Etna,不仅在视频长度上达到了破纪录的15秒,并且还实现了60FPS的超高帧率,大大提高了视频的流畅性和观看体验。

相比之下,其他的AI视频最高也只有每秒30帧。

无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟,还是冲浪者、划潜艇的人、滑雪的人,都做到了细节高清、动作连贯,甚至达到了3840x2160的超高分辨率。

这只美丽优雅的维多利亚冠鸽,头上羽冠的羽毛花边精致可见,眼睛栩栩如生,羽毛的质地和颜色都很细腻地还原出来了

夜色中的女郎,眼神魅惑地看向镜头

Etna的问世,意味着现有的国产文生视频技术的一次重大突破。现有的短视频创作模式,很有可能会被彻底颠覆!

一大波4K AI视频来了!

Etna的这波演示,让我们可以充分放飞想象力,把脑海里最奇特的想象给还原出来。

维多利亚冠鸽对着镜头展示自己的羽毛,头顶的壮丽彩冠blingbling地闪光。

一个酷酷的女生,戴着墨镜站在街头,带着墨镜。

穿着比基尼的金色长发美女,站在海浪中。

国产sram

黑夜的丛林中,一位女郎穿过,只留下神秘的背影。

国产sdram

两艘海盗船在一杯咖啡中航行时,忽然狭路相逢。

阳光透过热带雨林的斑驳树影洒下来。

一个精灵在魔幻森林中,周边环绕着发光的植物。

两只哈士奇开心地戴上泳镜,潜到海底打卡,它们开心地冲着镜头微笑合影,右边那位眼神还透着一股得意。

而小熊猫们居然出现在了鱼缸上面,整个画面构成一幅令人眼前一亮的的生态奇景。

如何抢先复现Sora?

从上图可以看出,相较于市场上的现有模型,Etna在时长、高清晰度、丰富生动细节和强语义理解上,都保持着较大优势。

为什么七火山能成为国内率先复现出Sora的公司?

Sora的关键创新,是一个可以灵活地处理不同维度数据的Diffusion Transformer:

1. 时空压缩器会把原始视频转映射到潜空间中。

2. 视觉Transformer(ViT)模型会对已经被分词的潜表征进行处理,并输出去除噪声后的潜表征。

3. 一个与CLIP模型类似的系统根据用户的指令(已经通过大语言模型进行了增强)和潜视觉提示,引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理之后,会得到生成视频的潜表征,然后通过相应的解码器映射回像素空间。

在相关领域技术积累的基础上,Etna模型迅速抓住了Sora的精髓,另外还引入了几项创新。

技术架构创新

iphone 15 pro大升级拥抱usb-c接口

由于视频的时空特性,在这一领域应用DiT所面临的主要挑战是:

(1)如何从空间和时间上将视频压缩到潜空间,以实现高效去噪;

(二)如何将压缩潜空间转换为patches,并将其输入到Transformer中;

(三)如何处理长距离的时空依赖性,并确保内容的一致性。

为此,Etna模型在主干网络上Diffusion架构,同时,在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构。

因为融合了Diffusion模型和Transformer模型的优势,通过这种结合,Etna就形成了一种高效且先进的新型模型架构。

这不仅提升了模型的生成效率,还保证了生成内容的高质量和高一致性。

时空理解能力

其次,Etna模型在语言模型和图像模型中插入时空卷积和注意力层,能够处理视频数据,即考虑图像序列中的时间连续性。

而这也就意味着,Etna拥有了一定的时空理解能力,从而能够理解并生成具有时间维度的视频内容。

视频时长与帧率优化

Etna模型支持生成视频时长达到8-15秒,且视频流畅度极高,每秒可达60帧。

这一特性使得Etna生成的视频不仅内容丰富,而且视觉效果流畅自然,极大提升了用户观看体验。

深度语义理解能力

文本提示对于指导文本到视频模型,制作既具有视觉冲击力,又能精确满足用户创建视频需求至关重要。

以Sora为例,提示中,包含了人物的动作、设定、角色出场,甚至是所期望的情绪,以及场景氛围。

而这样一个精心制作的文本提示,也确保了Sora生成的视频与预期的视觉效果非常吻合。

无独有偶,Etna模型背后的技术架构,也特别强调了对输入文本的深度理解。

借鉴了Sora模型的成功经验,Etna能够更准确地捕捉和转化文本信息为视频内容,使得生成的视频不仅忠实于原文意图,还能丰富展现文本的细微情感和场景。

比如,开头那只冠鸽的prompt就是:

这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王的威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。

可以看到,Etna生成的冠鸽不仅非常忠实于prompt,而且鸟首微颔、帝王般的威严感,也都还原得十分到位,表现出了细腻的控制能力。

高清晰度与丰富细节

与早期的视频生成模型相比,Etna在视频清晰度和图像细节方面取得了显著进步。

这意味着Etna能够产生高质量的视频内容,每个场景的细节都被精细呈现,为观众带来身临其境的视觉享受。

高质量的训练数据

最后,Etna模型特别注重训练数据的质量,采用视频而非静态图片作为主要训练材料,通过高效的处理方法优化了学习效率。

传统模型主要采用的是静态图像作为训练数据,而Etna模型的方法,更符合其生成目标的本质。

通过优化的patch处理方法,Etna模型在训练过程中能更有效地理解和模拟动态场景,从而提升最终视频的自然度和真实感。

具体来说,Etna模型在一个大型视频数据集上进行了充分训练,过程采用了先进的深度学习技术策略,包括LDS大规模训练、复杂HPO超参数优化和DPO微调,确保了模型的强大性能和生成能力。

改造短视频全产业链

要说2024年最火的是什么?短剧无疑是一个高赞答案。

对此,手握多年技术积累的七火山,也有了全链路的布局。

现在大家已经切实地感受到,AI多模态大有可为,而七火山已成为头部平台的AI内容战略合作伙伴。

它的产品形态兼具toB和toC模式,整合了AI系统能力,全面进军AI短剧制作领域。

七火山的AI多模态布局,除了有Etna之外,还包括Lava、miniTV和Bromo。

其中,Lava是一个短剧AI译制系统,可以完成角色换脸、对白配音、字幕翻译。

miniTV是一个AI短剧出海分发平台。

它聚合了AI短剧内容,与平台共同探索内容出海新模式。

Bromo是一个图片超分工具。它的图生图可达最高10K的超高分辨率,满足商业海报的水准。

AI视频,将颠覆整个行业

目前,七火山已经获得了来自上市公司超讯通信的战略投资,后者由此成为持股30%的单一大股东。

从去年初开始,超讯通信就开始寻找AIGC垂类新锐企业进行布局,在跟一系列AI多模态、AI应用落地公司接触后,确定了投资七火山。因此,七火山在算力上也能得到充分支持。

短剧爆火海内外的这一年,七火山也获得了几家大厂的青睐。

首先,七火山已经与小米就AI视频达成合作,发挥自己在短视频创作、短剧出海本地化、剧本创作、视频优化等方面的丰富经验优势。

此外,七火山和快手海外SnackVideo也有合作,将通过前沿AI技术,实现内容本地化,为海外用户带来各种琳琅满目的短剧。

国产sram

随着TikTok、Instagram Reels和Snapchat等平台的兴起,短视频近年来人气迅速飙升,成为当今的数字生态系统中最受欢迎、最重要的内容之一。

无论是在快节奏的现代生活中,轻松吸引人们注意力的优势,还是病毒式传播的可能性,都让它的影响日渐扩大。

许多业内人士公认,短视频就是在线内容的未来。其中短剧这一形态,更是创造了一个又一个爆款奇迹,今年的市场规模将超过500亿。

而在去年,中国的出海短剧就已经在海外杀疯了,成为掘金蓝海新赛道。根据国海证券的调查,短剧出海的长期空间可达360亿美元。

这么看,七火山妥妥是潜力股了,前景无限。

参考资料:

https://arxiv.org/abs/2402.17177

https://arxiv.org/abs/2212.09748

https://etna.7volcanoes.com/


返回网站首页

本文评论
荣耀玻璃机身手机有哪几款「荣耀Magic6系列首发巨犀玻璃:突破玻璃材质极限」
  【手机中国新闻】荣耀手机即将发布全新的Magic6系列,随着发布日期的临近,官方不断透露关于新机的更多细节。据最新消息,荣耀Magic6系列全系将搭载全新巨犀玻璃,这一创新材质...
日期:01-08
正式被确诊为烤肠是什么梗 网友:肥佬自嘲罢了
最近有个新梗在网络上流行开来,称为 “正式被确诊为烤肠”。这个词用来形容那些长期久坐不运动的上班族和宅家族,导致腹部和大腿脂肪堆积,身材逐渐变得臃肿,就像烤肠的脂肪含量...
日期:11-10
三星因“经济因素”将旗舰平板电脑Galaxy Tab S9系列推迟到明年发布
三星曾计划在今年推出Galaxy Tab S9系列,但由于包括经济在内的一些因素,该公司显然没有什么选择,只能推迟发布。Galaxy Tab S9系列原计划于2022年12月推出,但据The Elec报道,三星...
日期:10-16
小天才电话手表出售「一男子网售儿童表侵权“小天才” 被判赔偿3万元」
4月27日 消息:日前,湖南省高级人民法院对一起侵犯“小天才”商标侵权案作出二审判决,被告戴某黎构成商标侵权,赔偿原告各项经济损失及合理维权费用共计3万元。tnt go 办公2022...
日期:04-27
Redmi K30 (5G) 极速版_老友携手释放默契 京东高通带来Redmi K30 5G极速版新体验!
  “因为酷爱 所以KUAI!”由酷盖王一博代言的Redmi K30 系列手机又出新作!5月14日,京东联合小米旗下Redmi品牌、高通为用户带来Redmi K30 5G极速版新机迎来首销,骁龙768G移...
日期:12-19
消息称百度文心一言首站将直接落地百度搜索
2 月 9 日讯:据新京报报道,知情人士透露,百度旗下的类ChatGPT应用“文心一言”上线后,首站将直接接入百度搜索,包括多答案回复、智能生成等。广汽集团2018年年报aurora无人驾驶i...
日期:02-09
支付宝伪造「支付宝可识别仿冒小程序专利获授权」
3月15日 消息:企查查APP显示,近日,支付宝(杭州)信息技术有限公司申请的“一种仿冒小程序识别方法、装置、存储介质及电子设备”专利获授权。小米13ultra抖音称外卖服务仍在试点...
日期:03-15
消息称华为正逐步解散美国加拿大公关和政府关系团队_华为解聘加拿大
通信世界网消息(CWW)近日,根据“凤凰网科技”消息,有知情人士透露称,华为公司已逐步解散了公司在美国和加拿大的公关和政府关系团队。此前,华为曾把美国视为一个重要市场,认为有可...
日期:01-06
比亚迪赵长江毕业于清华大学「比亚迪赵长江:腾势N7重庆20公里0接管 站稳智驾第一梯队」
快科技10月31日消息,今天比亚迪腾势销售事业部总经理赵长江表示,腾势N7站稳智驾第一梯队。赵长江今天乘坐飞机抵达重庆江北国际机场,随后就开始体验腾势N7的高速NOA(高速导航辅...
日期:11-01
科大讯飞 数字人「科大讯飞入股AI数字人公司良胜数字」
10月23日 消息:天眼查App显示,近日,良胜数字创意设计有限公司发生工商变更,原股东文旅旅游咨询有限公司、章群星退出,新增科大讯飞旗下安徽讯飞云创科技有限公司等为股东。罗永...
日期:10-23
Google将在Android 2.2中提供Adobe Flash_google 2.0.apk
  一些细心的Android系统用户已经发现,Google面向Droid和Nexus One的网页中已经出现了一个支持Flash 10.1网站的列表,例如英国广播公司和索尼电影视频等。   这基本确认...
日期:07-29
CDA数据分析师入选北京市科委2020首批高精尖产业技能培训机构!(北京cda数据分析研究院)
  2020年首批高精尖产业技能提升培训项目和培训机构新鲜出炉啦!CDA数据分析师强势入围《首批高精尖产业技能提升培训机构》。   2020年高精尖产业技能提升培训项目和培...
日期:07-14
苹果应用商店不好使了怎么办「iPhone又中招!苹果App Store应用商店崩了:重启也没用」
快科技4月27日消息,前不久,国内iPhone用户遇到了苹果自带天气App崩溃,问题主要是数据不更新、天气小组件无数据Bug等,且天气App崩溃多次,影响用户日常使用。今日,又有不少iPhone用...
日期:04-27
爱立信5g产品「再创里程碑!爱立信5G无线设备出货量突破1000万台」
通信世界网消息(CWW)目前,全球5G发展如火如荼,网络规模和用户数量双双快速增长。根据《爱立信移动市场报告》,截至2022年底全球已有235家运营商推出5G商用服务, 5G签约用户突破了1...
日期:07-19
问界m5什么时候上市「余承东口中1000万元内最好的SUV!问界M9内饰曝光:三联屏」
快科技10月23日消息,问界旗舰SUV车型M9将于今年底正式发布,预计售价为50万-60万元。余承东称之为1000万元内最好的SUV”以及马路上能看到的最强大的SUV”。现在,博主王振宇auto...
日期:10-23
B站硬核会员测试上线!两小时一百道题目(b站正式会员题库)
  B站现已上线硬核会员测试,只有会员等级lv6的用户可参与。   用户可以从手机APP端“我的”标签页找到测试入口。   用户需要选择1-3个分区进行答题,题目一共100道,限...
日期:07-18
高德打车宣布接入AutoX无人车 上海市民首批免费体验(高德打车预约用车)
  4月27日消息,聚合打车平台高德打车宣布接入AutoX无人车,并在上海联合启动了体验招募活动。即日起,上海市民使用高德地图,搜索“无人车”即可进入报名页面,报名通过且收...
日期:03-02
新一代iPad Pro曝光:苹果要一年两更、mini LED屏+5G(新款iPad mini曝光)
  据外媒最新报道称,苹果将会加速在iPad系列上的更新速度,具体来说就是,iPad Pro系列有望一年两更。   报道中提到,下一代iPad Pro将采用mini LED显示技术,预计mini LED将带...
日期:07-14
斯坦福大学:大多数大语言模型不符合欧盟AI法案 GPT-4仅排第四
7月12日 消息:斯坦福大学著名的以人为中心的人工智能研究所 (HAI) 表示,对10个主要基础模型的调查显示,它们“基本上不”遵守欧盟的人工智能法案。苹果15外观会有改变吗得分最高...
日期:07-12
阿里云创始人王坚回归阿里云 云市场风云再起
【】5月12日消息,消息称阿里云创始人王坚已正式回归阿里云。有熟悉阿里云的人士向透露,王坚确实已经回归阿里云。nft销售王坚于2008年9月加入阿里巴巴集团,担任首席架构师。200...
日期:09-29