您的位置:首页 > 互联网

北大clash「北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应」

发布时间:2024-03-04 11:30:09  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色 ,授权转载发布。

重磅:

北大somis

北大团队联合兔展发起了一项Sora复现计划——Open Sora。

框架、实现细节已出:

初始团队一共13人:

喜茶日均营业额

带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。

为什么发起这项计划?

因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。

消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应:

还有人表示可以提供高质量数据集:

所以,“国产版Sora”的新挑战者,就这么来了?

计划细节,已完成3个初步功能

首先,来看目前公布的技术细节——即团队打算如何复现Sora。

整体框架上,它将由三部分组成:

  • Video VQ-VAE

  • Denoising Diffusion Transformer(去噪扩散型Transformer)

  • Condition Encoder(条件编码器)

这和Sora技术报告的内容基本差不多。

对于Sora视频的可变长宽比,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。

具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。

英伟达2022新显卡发布

秋冬季适合健身吗

对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。

具体而言:

我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0,255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。

同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。

在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:

这三个功能都已经初步实现。

相关的训练代码也已经在对应的仓库上上线:

成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧128128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。

而从目前已经列出的9项to do事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。

未来要做的包括:

  • 采样脚本

  • 添加位置插值

  • 在更高分辨率上微调Video-VQVAE

  • 合并SiT

  • 纳入更多条件

  • 以及最重要的:使用更多数据和更多GPU进行训练

袁粒、田永鸿领衔

严格来说,Open Sora计划是北大-兔展AIGC联合实验室联合发起的。

领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。

他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。

研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。

领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。

从目前公布的团队名单来看,其余成员大部分为硕士生。

包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR2024)等工作。

兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)和CTO周星。

完整名单:

谁能率先发布中文版Sora?

相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。

谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。

在这之中,传闻最大的是字节。

今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。

很快,一款叫做“Boximator”的视频生成模型浮出水面。

它基于PixelDance和ModelScope两个之前的成果上完成训练。

不过,很快字节就辟谣这不是“字节版sora”:

它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。

但,风声并未就此平息。

去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。

现在,又有消息称:

Dreamina即将上线类似sora的视频生成功能(目前在内测)。

不知道,这一次是不是字节亮出的大招呢?

Open Sora项目主页:

https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html

https://github.com/PKU-YuanGroup/Open-Sora-Plan

—完—


返回网站首页

本文评论
以专利合伙人计划激励知识产权创造,达闼公司—— 捧出“真金白银” 推动创新发展
华为mate50pro鸿蒙3.0新功能走进达闼机器人股份有限公司(下称达闼公司),紧靠正门的一面墙上,用显眼的文字展示了该公司的专利合伙人计划。一路向前,墙面上紧密排列的达闼公司国内...
日期:01-26
带来制造难题 苹果混合现实头戴设备的设计复杂性超乎想象
苹果的混合现实头戴设备被报道称将是该公司迄今为止最复杂的硬件产品,其独特的设计给制造带来了前所未有的挑战。据 The Information 报道,这款头戴设备采用了非传统的弯曲设...
日期:09-26
2024总台春晚开播:范伟配音开场短片《我们的春晚》_范伟中央春晚小品全部完整版
2月9日消息,2024总台春晚正在直播中。雷军小米13发布会完整版据国内多家媒体报道,今年春晚由短片《我们的春晚》开场,演员范伟配音。iphone 5s上市iphone5s铃声从开场短片《我...
日期:02-10
苹果手机上网速度慢_苹果手机上网速度慢卡
苹果手机上网速度慢是一个很常见的问题。用户都期望手机能够快速地上网,但有时候打开网页或应用需要花费很长时间。接下来,我们将搜集一些相关信息,看看为什么苹果手机上网速度...
日期:05-28
股市投资者难以参与 AI 浪潮 Y-Combinator 创始人_浪潮的创始人
6 月 5 日早间消息,美国著名创业孵化器 Y Combinator 联合创始人、风投家保罗・格雷厄姆(Paul Graham)最近公开表示,公共市场投资者缺少渠道参与 AI 浪潮,因为几乎所有的优秀 AI...
日期:09-25
端点科技再度携手晶科能源,共拓光伏“绿”能新篇__端点科技有未来吗
(原标题:端点科技再度携手晶科能源,共拓光伏“绿”能新篇) 新年伊始,杭州端点网络科技有限公司(以下简称“端点科技”)与晶科能...
日期:01-08
腾讯会议部分功能开始收费  不支持按次计费「腾讯会议开始收费了吗」
10月31日 消息:据财经 E 法消息,9月15日起,腾讯会议部分功能开始收费,并且需至少支付1个月的费用。2020伦理学会议据网友称,一开始免费提供的视频到文本的转换功能,现在只能免费...
日期:11-02
网友发现《庆余年2》有徐志胜:他跟范思哲必须得有互动_庆余年 范思哲 算账 对白
10月17日消息,据媒体报道,《庆余年2》已经杀青。在官方发布的现场路透照片中,网友发现《庆余年2》有徐志胜。有网友称:他跟范思哲必须得有互动,肯定很搞笑。据悉,《庆余年2》是由...
日期:10-18
港股美团跌超11%,市值跌破1万亿港元_美团港股最近消息
  讯 8月16日下午消息,港股美团跌超11%,报159.6港元每股,市值跌破1万亿港元。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。对此,腾讯方面回应称,不予置评。iOS16正式...
日期:10-22
联万物,+智能,为行业,华为云升级OceanConnect IoT全栈云服务_华为物联网模块
  日前,在HUAWEI CONNECT 2019期间,华为云CTO张宇昕在华为云峰会上升级OceanConnect IoT全栈云服务,发布包括端、边、管、云、行业的16个云服务,致力于“联万物、+智能、为...
日期:01-24
三星过年「寒假倒计时 多款热销三星Galaxy手机伴你度过假日时光」
再不多时,辛苦一年的莘莘学子们就要迎来寒假。在学习生活中忙碌了一整年的你,是否也想选择一部新手机,陪伴自己度过漫长的假期。最近三星商城的“校园聚惠 乐享嗨购”正在火热...
日期:01-03
大对话:从底层认知开始,变成AI原住民
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:见实,授权转载发布。如今已经有非常多AI强应用领域的创业者们赚到新AI浪潮的钱了。这波浪潮来势汹汹,同样的,实干家们也...
日期:10-02
刘强东夫妇“移民美国”?京东回应;特斯拉已在中国建立数据中心
【特斯拉:已在中国建立数据中心,所有中国大陆市场车辆数据存储在境内】特斯拉官方微博8月14日发文回应近日网友关心的特斯拉“哨兵模式”:哨兵模式(一些品牌也称为“守卫模式”)...
日期:08-15
美国科技巨头地图产品“迈出巨大一步”:沉浸式「美国 地标」
凤凰网科技讯 北京时间9月29日消息,谷歌在当地时间周三的第三届年度搜索活动上表示,该公司将为一些地点推出“沉浸式视图”和“氛围”,添加一些视觉形式细节,方便用户提前探索相...
日期:09-30
15伏层叠电池尺寸「iPhone15将采用叠层电池 充电速度和电池寿命将大幅提升」
据报道,iPhone15系列手机有望配备叠层电池技术,这将大幅提升充电速度和电池寿命。叠层电池技术能够降低发热量,提供更多可用电量,并可能实现快充功率超过30W。该技术也可能改善...
日期:07-24
「今晚开启iPhone 15预购 「苹果中国官网商店即将装修」」_苹果预售官网
来源:中关村在线苹果中国官网商店目前正在进行装修维护,预计今晚8点将正式开启iPhone 15系列的预购。值得注意的是,苹果官方商店支持14天无理由退货政策。 购买后,顾客可以选择...
日期:09-16
乔布斯离职不会影响苹果产品需求 85%想买iPad(乔布斯卖苹果)
4%受访者表示会因乔布斯离职改变购买意向 9月14日消息,据国外媒体报道,市场研究机构ChangeWave发现,乔布斯离职对苹果产品需求的影响正在减弱。只有4%受访者表示会因乔布斯离...
日期:07-23
马斯克人气下滑的标志 美国宝宝都不愿用他的名字了「马斯克 起名」
凤凰网科技讯 北京时间11月16日消息,根据美国数字育儿网站BabyCenter周二发布的“2022年最热门婴儿名字趋势”报告,“埃隆”(Elon)已不再是美国新生儿的热门名字选择了。腾讯...
日期:11-17
Trax助力SFA公司打通全场景零售监测
  面对货架上成百上千的货品,零售企业既要全局把控,又要调配细节。不同的企业侧重点不同,但在对降本增效的策略上,皆是同样慎重。   AI赋能SFA,实现精准成本把控   一直以...
日期:11-22
腾讯牵头起草首个“防疫出行码”团体标准,为疫情防控和复工复产助力
  3月5日,《防疫通行码参考架构和技术指南》(以下简称“标准”)送审稿通过专家评审会审核,并正式报批。此项团体标准由深圳市政务服务数据管理局指导,深圳市标准促进协会发...
日期:06-11