您的位置:首页 > 互联网

文本自动生成视频「文本直接生成2分钟视频,即将开源模型StreamingT2V」

发布时间:2024-04-01 15:13:04  来源:互联网     背景:

声明:本文来自于微信公众号AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间,动作一致、连贯、没有卡顿的高质量视频。

虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美,但在高速运动方面非常优秀,这为开发长视频模型提供了技术思路。

研究人员表示,理论上,StreamingT2V可以无限扩展视频的长度,并正在准备开源该视频模型。

文本生成网站

论文地址:https://arxiv.org/abs/2403.14773

github地址:https://github.com/Picsart-AI-Research/StreamingT2V(即将开源)

StreamingT2V生成的2分钟视频

传统视频模型一直受训练数据、算法等困扰,最多只能生成10秒视频。Sora的出现将文生视频领域带向了一个全新的高度,突破了诸多技术瓶颈,仅通过文本就能生成最多1分钟的视频。

而StreamingT2V采用了创新的自回归技术框架,通过条件注意力、外观保持和随机混合三大模块,极大的延长了视频的时间,同时保证动作的连贯性。

简单来说,StreamingT2V使用了一种“击鼓传花”的方法,每一个模块通过提取前一个视频块中的表示特征,来保证动作一致性、文本语义还原、视频完整性等。

条件注意力模块

vr虚拟直播的可行性

条件注意力模块是一种“短期记忆”,通过注意力机制从前一个视频块中提取特征,并将其注入到当前视频块的生成中,实现了流畅自然的块间过渡,同时保留了高速运动特征。

先使用图像编码器对前一个视频块的最后几帧(例如20帧)进行逐帧编码,得到相应的特征表示,并将这些特征送入一个浅层编码器网络(初始化自主模型的编码器权重)进行进一步编码。

然后将提取到的特征表示注入到StreamingT2V的UNet的每个长程跳跃连接处,从而借助前一视频块的内容信息来生成新的视频帧,但不会受到先前结构、形状的影响。

外观保持模块

苹果8指纹识别

文本生成器是什么

为了保证生成视频全局场景、外观的一致性,StreamingT2V使用了外观保持这种“长期记忆”方法。

苏宁易购悟空榜最新

外观保持从初始图像(锚定帧)中提取高级场景和对象特征,并将这些特征用于所有视频块的生成流程。这样做可以帮助在自回归过程中,保持对象和场景特征的连续性。

此外,现有方法通常只针对前一个视频块的最后一帧进行条件生成,忽视了自回归过程中的长期依赖性。通过使用外观保持,可以使用初始图像中的全局信息,从而更好地捕捉到自回归过程中的长期依赖性。

随机混合模块

金证股份签订500亿

前两个模块保证了StreamingT2V生成的视频大框架,但是在分辨率、质量方面还有欠缺,而随机混合模块主要用来增强视频的分辨率。

如果直接增强质量会耗费大量AI算力、时间,所以,随机混合采用了自回归增强的方法。

首先,研究人员将低分辨率视频划分为多个长度为24帧的视频块,这些块之间是有重叠的。然后,利用一个高分辨率的视频模型,对每一个视频块进行增强,得到对应的高分辨率视频块。

例如,有两个重叠的视频块A和B,重叠部分包含20帧。对于重叠部分的每一帧,随机混合模块会从A块和B块中各取出一帧,然后对这两帧进行加权平均,生成一个新的混合帧。通过这种方式,重叠部分的每一帧都是A块和B块对应帧的随机混合。

而对于不重叠的部分,随机混合模块则直接保留原始视频块中的帧。经过随机混合后的视频块就可以输入到高分辨率模型中进行增强。

研究人员指出,如果让相邻的两个视频块直接共享完全相同的重叠帧,会导致视频在过渡处出现不自然的冻结和重复效果。而随机混合模块通过生成新的混合帧,很好地规避了这个难题,使得块与块之间的过渡更加平滑自然。

实验数据显示, StreamingT2V生成的1分钟、2分钟长视频,不仅保持了高分辨率和清晰画质,整体的时间连贯性也得到了很大提升。视频中的物体运动姿态丰富,场景和物体随时间的演变更加自然流畅,没有突兀的断层或冻结情况出现。


返回网站首页

本文评论
奇虎360融资规模2亿美元 计划启动IPO(奇虎360投资)
  北京时间3月15日早间消息,奇虎360提交美国监管机构的一份文件显示,该公司计划启动IPO(首次公开招股),股票代码为“NYSE:QIHU”,融资规模为2亿美元。   瑞银投资银行和花旗...
日期:07-27
路边摊的淀粉肠是什么成分「路边卖淀粉肠阿姨主动出示声明书:证明淀粉肠安全可靠」
3月17日,在山东日照的街头,一位大学生在购买淀粉肠时,特意向售卖淀粉肠的阿姨索要食品安全声明书。荣耀x40怎么样苹果会跌价吗这位阿姨十分负责,迅速展示了由厂家提供的食品安全...
日期:03-19
阿尔特创始人「OpenAI宣布阿尔特曼正式重新成为CEO 新董事会正式成立」
11月30日消息,据外媒报道,当地时间周三,OpenAI宣布,公司联合创始人萨姆·阿尔特曼(Sam Altman)正式重新成为OpenAI的CEO。大约两周前,也就是在11月17日,OpenAI董事会解雇了阿尔特曼...
日期:11-30
5G、国产ERP、MES、工业OS等上榜工信部2023年度重点产品、工艺"一条龙"应用示范
通信世界网消息(CWW)1月8日,为深入贯彻党的二十大关于实施产业基础再造工程的重要部署,落实全国新型工业化推进大会精神,充分发挥应用场景牵引作用,加快推进优质基础产品和先进工...
日期:01-11
彩礼和零花钱「“零彩礼”,可行吗? 专家称高价彩礼造成年轻人恐婚不婚」
最近有一则关于彩礼的新闻引起了社交媒体的广泛讨论。据报道,一位山西晋北地区的网友发帖询问:“女朋友说彩礼18.8万,三金衣服婚纱等8万……一谈到钱就上升到态度问题,就是不在...
日期:03-06
收集贩卖公民数据信息 东莞多人被判刑_贩卖个人信息是刑事案件吗
  来源:法治日报  □ 本报记者  章宁旦2017支付宝双十二活动  □ 本报通讯员 钟紫薇  网上冲浪、注册账号、信息上传等,都有可能透露个人信息,网络虚拟数据中所承载...
日期:09-29
吃补贴的MCN靠种草“逆袭”,明年冲击2亿流水_mcn平台补贴
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。从秀场、短视频补贴再到种草,一家直播公会、MCN机构如何保持进化的能力?2015年,陶志斌手握10万元,一头扎...
日期:11-18
最早的特斯拉杀手,本周出殡了_特斯拉死者
有些车还在卖,但你以为它都停产了;而有些车停产了,你却惊讶:它不早就不卖了么?本周,最后一批共计18辆的i3电动车在位于慕尼黑的宝马博物馆向用户交付。宝马为这批车打造了特殊的电...
日期:09-21
慧聪误导媒体言论 万网再三强调依法办事
  近日,慧聪网报出“断网门”新闻发布会消息后,有业内人士认为目前仅听一家之辞有失公允,也有炒作的嫌疑。因此,为了进一步了解此次事件,记者寻求了万网方面的态度。   万网...
日期:07-27
同程旅行估值「同程旅行:上半年营收30.37亿元,经调整EBITDA为7.3亿元」
查看最新行情 三星note9的价格  讯 8月22日下午消息,同程旅行发布公告称,上半年收入同比减少19.1%至30.37亿元;经调整EBITDA同比减少24.9%至...
日期:09-10
8999起 「轻薄全能_Xiaomi」,MIX Fold 3发布「小米mix fold深度测评」
2023 年 8 月14 日,小米在北京国家会议中心召开 2023 雷军年度演讲,正式发布了全新一代轻薄折叠旗舰 Xiaomi MIX Fold 3 。Xiaomi MIX Fold 3不仅延续了前作的轻薄基因,更实现...
日期:09-10
三七互娱入股 AI 编程公司硅心科技_三七互娱研发中心在哪
8月9日 消息:天眼查显示,近日,北京硅心科技有限公司发生工商变更,股东新增三七互娱旗下三七乐心(广州)产业投资合伙企业(有限合伙)等,同时注册资本由1255.05万人民币增至约1419.07...
日期:08-09
​Spring AI提供了与OpenAI和Azure OpenAI的集成
文章概要:1. Spring AI项目为创建AI应用提供了与Spring常用概念的集成,目前支持Azure OpenAI和OpenAI作为后端。2. Spring AI通过抽象层统一了与不同AI解决方案的交互,提供了...
日期:08-30
5G速度冲上万兆!iPhone 14 Pro/Max基带确认:高通骁龙X65「iphone 11 pro max支持5g网络吗」
iPhone 14系列正式开售,今天你拿到首批新机了吗?在消费者尝鲜iPhone 14 Pro系列“灵动岛”的同时,不少博主也对新机开启了拆解。今日@微机分WekiHome 发布iPhone 14 Pro系列拆...
日期:09-20
脸书旗下WhatsApp泄露海外近5亿用户的电话号码「脸书收购whatsapp」
11月25日 消息:Cybernews发现某黑客在论坛上公开出售84个国家的4.87亿 WhatsApp 用户的电话号码。在4.87亿个手机号码中,超过3200万来自美国,4500万来自埃及,500万来自意大利,29...
日期:12-02
设计师远程办公的五个技巧,向日葵远程控制让你事半功倍!_向日葵远程控制的缺点
随着远程办公逐渐成为一种常见的办公方式,很多设计师朋友也开始使用远程控制软件进行远程办公。当我们使用远程控制软件开展设计/后期/制图等工作时,其实有很多实用的技巧,可以...
日期:03-27
mbti模型分析「大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品」
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:Jiaxi,授权转载发布。北大团队新作,让大模型拥有个性!而且还是自定义那种,16种MBTI都能选。图源备注:图片由AI生成,图片授权服务...
日期:01-14
京东上门换新服务新增催收功能「京东催收打电话要上门,我该怎么回答」
9月29日 消息:今日,京东京麦商家中心宣布,京东为优质用户提供的售后特色服务“上门换新”新增催收功能。据介绍,上门换新是为优质用户提供的一项售后特色服务。当信誉等级在3星...
日期:10-01
必应聊天改进报告:正确显示数学公式,减少非正常结束对话情况
IT之家 4 月 22 日消息,微软必应(Bing)官方博客更新动态,分享了自 4 月 7 日至 21 日的必应聊天(Bing Chat)改进报告,其中最大的亮点在于引入了 LaTeX 标记,可以正确显示数学公式。i...
日期:04-22
联想erazer_联想erazer z500参数
是联想推出的一款游戏电脑品牌,尤其适用于喜欢玩游戏的玩家。此品牌产品结构紧凑、性能稳定、外形设计迷人等特点一直深受消费者的青睐。下面我们从性能、外观和游戏体验三个...
日期:05-31