您的位置:首页 > 互联网

生成超清分辨率视频,南洋理工开源Upscale-A-Video

发布时间:2023-12-26 17:48:26  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

大模型在生成高质量图像方面表现出色,但在生成视频任务中,经常会面临视频不连贯、图像模糊、掉帧等问题。

这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯性。

为了解决这些难题,新加坡南洋理工大学的研究人员开发了一种Upscale-A-Video框架,无需任何训练便能快速集成到大模型中,提供视频超分辨率、去噪、还原等强大功能。

论文地址:https://arxiv.org/abs/2312.06640

开源地址:https://github.com/sczhou/Upscale-A-Video

项目地址:https://shangchenzhou.com/projects/upscale-a-video/

Upscale-A-Video主要借鉴了图像模型中的扩散方法,设计了一种无需大规模训练即可快速迁移的框架。

该框架融合了局部和全局两种策略来维持时间的一致性。局部层,模型通过3D 卷积和时序注意力层增强特征提取网络U-Net在短视频片段内的一致性。

全局层,则通过光流指导的循环潜码传播功能,提供跨视频片段强化更长时间尺度下的连贯性。

除了时间一致性,Upscale-A-Video还可以通过文本提示指导细节纹理的生成,不同的提示词可产生不同风格、质量。

时序U-Net

U-Net作为特征提取网络,对视频质量起决定性作用。传统只考虑空间信息的U-Net在处理视频时往往会引入高频误差,表现为抖动和闪烁。

mini-led显示器

Upscale-A-Video通过向U-Net中插入3D卷积块和时序自注意力层,增强其对时间维度的建模能力。这使U-Net可以学习视频数据中帧与帧之间的依赖,从而在局部序列内实现一致的超分辨重建。

另一方面,研究人员选择固定U-Net中的空间层参数,只对新增时序层进行调优。这种策略的优点是可以避免从头大规模预训练,充分利用图像模型中提取的丰富特征。同时也缩短了网络收敛的时间,起到事半功倍的效果。

循环潜码

时序U-Net的作用范围仅局限于短视频片段,难以约束更长序列的全局一致性。而视频抖动和质量波动往往都是长时间范围内的现象。

为解决这一问题,Upscale-A-Video设计了一个基于光流的循环潜码传播模块。

该模块可以在不增加训练参数的情况下,通过前向和后向传播推断所有帧的潜码信息,有效扩大模型感知的时间范围。

具体来说,该模块利用预先估计的光流场,进行逐帧传播与融合。它根据光流的前向-后向一致性误差判断传播的有效性,只选择误差小于阈值的区域进行特征传播。

而超出阈值的区域则保留当前帧信息。这种混合融合策略,既利用了光流建模的长期信息,又避免了传播错误的累积。

文本提示增强指导

Upscale-A-Video还支持文本条件和噪声水平的控制,用户可以依据实际情况,引导模型生成不同风格和质量的结果。

文本提示可以指导模型合成更逼真的细节,如动物皮毛、油画笔触等。噪声水平的调整也提供了在还原与生成间权衡的灵活性:加入更少噪声有利于保真,而更高水平的噪声则促使模型补充更丰富的细节。

这种可控制的生成能力进一步增强了Upscale-A-Video处理复杂真实场景的鲁棒性

实验数据

研究人员从定量和定性两个方面全面验证了Upscale-A-Video的性能。在四个合成低质量视频基准上,皆取得了最高的峰值信号噪声比和最低的流式感知损失。

流式验证集和AI生成视频上, Upscale-A-Video的非参考画质评分也高居各方法之首。这也证明了Upscale-A-Video在保真还原和感知质量上的优势。

从生成效果对比来看,Upscale-A-Video重建的视频展现了更高实际分辨率下的细节层次;运动轨迹更加连贯自然,没有明显的抖动和裂缝。这得益于强大的扩散先验和时空一致性优化。

RTX显卡原价

相比之下,卷积神经网络和扩散等方法会出现模糊不清,失真等效果,无法达到同等水准。


返回网站首页

本文评论
搜狗游戏中心停止运营了吗_搜狗游戏中心停止运营
品玩8月19日讯,搜狗游戏中心宣布正式下线,由于公司业务调整,搜狗游戏中心将正式停止服务与运营。腾讯2021年宣布收购搜狗。2021年10月,腾讯与搜狗正式交接。搜狗全员转换身份入...
日期:08-20
实例解析地方网站如何加强媒体和行业合作_实例解析地方网站如何加强媒体和行业合作管理
  根据中国互联网络信息中心(CNNIC)发布的统计报告显示,截至2010年6月底,中国互联网飞速发展,网民规模已达4.2亿,占据全国人口总数的近1/3。在网络迅速普及的大趋势下,服务于...
日期:07-25
XSKY中标2019央采
  日前,中央国家机关2019年软件协议供货采购项目正式发布中标公告,XSKY两款SDS产品成功入围。   本次采购由中央国家机关政府采购中心组织发起,该中心于2003年1月10日正...
日期:08-09
二手奢侈品市场新机遇 爱回收投资值耀 战略新布局(奢侈品牌二手回收)
  随着国民消费水平提高,中国消费者对物质品质的追求以及消费观念的转变,消费者所拥有的奢侈品保有量已达到一定规模,越来越多的消费者愿意愿意出手闲置二手奢侈品以及购买...
日期:01-25
老虎资讯:知乎向纽交所递交招股书,正式启动赴美上市(美股 纽交所)
  据老虎资讯,美东时间3月5日,中国最大的在线问答社区知乎正式向美国证监会(SEC)递交首次公开招股书,计划在纽交所上市,代码为“ZH”。高盛、瑞信和摩根大通担任承销商。据美...
日期:07-16
转转&找靓机联合618年中大促:亿万补贴,手机、电脑数码抄底价!(转转二手)
  当完成战略合并的新转转集团遇到618,又会擦出怎样的火花?   答案只有一个,那就是:火力全开!   现在敲黑板:   5月30日晚8时至6月18日24时,转转&找靓机联合618大促正式...
日期:07-14
“一带一路”国际数据大赛助推AI发展,主办方百度与年轻选手们共探AI前沿秘密
  近年来,AI技术的地位愈显重要,世界各国对AI人才的培养也极为重视,高水准、强竞争性的国际赛事成为AI人才展示实力的舞台。9月11日,由联合国教科文组织国际工程科技知识中心...
日期:03-14
华为sonic_华为松山湖
华为是全球知名的科技公司,不仅在手机、电脑等领域拥有极高的市场占有率,也在网络设备领域居领先地位。作为华为网络设备的一款产品,华为Sonic自面世以来备受追捧,下面将为大家...
日期:05-31
2023年科技界最受期待的IPO有哪些?「2020十大ipo」
  来源:福布斯公众号  文/Alex Konrad  就IPO而言,2022年可以说是科技行业的低迷年,这一年里上市的公司很少,表现良好的公司更少。根据Refinitiv的数据,2022年在美国上市的...
日期:01-03
谷歌gemini在哪里使用 谷歌Ai第二版发布时间_google ai
谷歌Gemini是谷歌公司发布的人工智能大模型,拥有1.8万亿个参数,是迄今为止谷歌开发的最大的语言模型。它包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被...
日期:12-11
头条入抖,资讯类APP最后的“余光”?_抖今日头条
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。抖音电商的触角伸向了今日头条。近日,今日头条上线了购物频道,据观察此频道并没有在显眼的位置...
日期:11-05
作业帮与Google、Facebook等国际科技巨头一同登上2021“十大突破性技术”榜单
  近日,《麻省理工科技评论》2021年“全球十大突破性技术”(TR10)在杭州全球同步首发,“远程技术”成为一大亮点。作为该技术主要研究者,全球用户规模最大的在线教育公司作...
日期:07-16
微软正式发布Win10 21H2系统_win10新版本21H2
  (原标题:Win11 的餐前酒,微软正式发布 Win10 21H2 系统 :新增 Wi-Fi WPA3 H2E 标准,WSL 支持 GPU 计算)   微软昨天发布博客文章称,虽然我们对下一代 Windows 11 感到兴奋...
日期:03-07
蔚来老板李斌是哪里人「蔚来手机上热搜了!李斌第一次做手机:不跟华为小米竞争」
快科技8月4日消息,蔚来手机(型号为N2301)获得入网许可,相关话题迅速冲上了微博热搜榜,引发业界关注。从时间节点来看,蔚来手机无缘高通骁龙8 Gen3移动平台,这颗芯片要等到今年10月...
日期:08-05
诺顿发布Android手机安全软件2.0_诺顿手机版怎样免费使用
  诺顿在北京正式发布基于 Android平台的诺顿手机安全软件2.0版本 (Norton Mobile Security for Android 2.0),并通过中国主要的 IT 零售商和电信运营商进行发售。   此...
日期:07-22
特斯拉新工厂选址已有眉目:马斯克在这个国家早有部署(马斯克想建造特斯拉外星工厂)
全球电动汽车龙头特斯拉已开始游说加拿大安大略省政府,有意在该地区建立一个新的电动汽车工厂。财联社8月9日讯(编辑 赵昊)综合多家外国科技媒体报道,全球电动汽车龙头特斯拉已...
日期:08-20
sql语句自然连接「SQLCoder:将自然语言问题转化为 SQL 查询的先进模型」
8月23日 消息:SQLCoder 是由 Defog.ai 开发的一款先进模型,用于将自然语言问题转化为数据库查询。它在通用 SQL 架构中表现出色,并且在针对特定数据库架构进行优化时,性能超过...
日期:08-23
Canalys:2023年第二季度手机市场跌幅收窄,vivo重回第一「vivo2021下半年手机」
7月28日,科技市场独立分析机构 Canalys 公布了2023年第二季度,中国智能手机市场出货量数据。数据显示,中国智能手机市场出货同比下滑5%至6430万部。苹果ultra手机具体到头部品...
日期:07-28
10月4日发布 小米第一款2亿像素手机要来了「小米首款一亿像素手机」
小米官宣10月4日举行全球发布会,发布会上将会发布小米12T和小米12T Pro至少两款新手机。这两款手机的一大看点就是像素的提升,其中,小米12T后置主摄为1.08亿像素,小米12T Pro后...
日期:09-30
郎朗巴黎演奏 钢琴上的魅族21亮了:一体纯白太吸睛_郎朗系列钢琴
快科技12月7日消息,近日郎朗前往法国巴黎演奏,作为魅族21音质鉴赏师,他也带上了魅族21。演奏过程中,魅族21静静放在钢琴上,一体纯白的机身在纯黑钢琴的映衬下,非常吸睛。长虹海思5...
日期:12-07