您的位置:首页 > 互联网

OpenAI开源全新解码器,极大提升Stable Diffusion性能_开源视频解码器

发布时间:2023-11-08 12:01:24  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。

据悉,Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion1.0+ VAE兼容的图像,尤其是在文本、面部和直线方面有大幅度提升。仅上线一天的时间,在Github就收到1100颗星。

Whisper large-v3是OpenAI之前开源的whisper模型的最新版本,在各种语言上的性能都有显著提升。OpenAI会在未来的API计划中提供Whisper v3。

解码器地址:https://github.com/openai/consistencydecoder

Whisper v3地址:https://github.com/openai/whisper

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成员,所以,AIGC开放社区想为大家介绍一下OpenAI之前开源的另一个创新模型——Consistency Models。

扩散模型的出现极大推动了文生图片、视频、音频等领域的发展,涌现了GAN、VAE等知名模型。但是这些模型在推理的过程中,过于依赖迭代采样过程,导致生成效率非常缓慢或生成图片质量太差。

OpenAI为了突破这个技术瓶颈,提出了Consistency Models(一致性模型)框架并将其开源。该技术的最大优势是支持单步高质量生成,同时保留迭代生成的优点。简单来说,可以使文生图模型在推理的过程中又快又准攻守兼备。

苏宁易购瓜分10亿红包

此外,Consistency Models可以通过提取预先训练的扩散模型来使用,也可以作为独立的生成模型来训练,兼容性强且灵活。

解码器怎么开

开源地址:https://github.com/openai/consistency_models

论文:https://arxiv.org/abs/2303.01469

为了让大家更好的理解Consistency Models技术特点,AIGC开放社区先简单的介绍一下扩散模型的原理。

什么是扩散模型

扩散模型主要通过模拟扩散过程来生成数据,核心技术是将数据看作是由一个简单的随机过程(例如,高斯白噪声)经过一系列平滑变换得到的结果。

扩散模型主要由正向过程和反向过程两大块组成。正向过程(扩散过程):首先将原始数据通过添加噪声逐渐扩散,直到变成无法识别的噪声。

具体来说,每一步都会添加一点噪声,噪声的强度通常会随着步骤的进行而增大。这个过程可以用一个随机微分方程来描述。

反向过程(去噪声过程):然后使用一个学习到的模型从噪声数据中重建原始数据。

这个过程通常通过优化一个目标函数来进行,目标是让重建的数据与原始数据尽可能相似。

Consistency Models简单介绍

1.25.0解码器

Consistency Models受扩散模型技术思路启发,直接将噪声映射到数据分布,无需迭代过程直接生成高质量图像。实验证明,如果模型输出在同一轨迹上的点保持一致,可以有效学习此映射。

简单来说,Consistency Models直接放弃了逐步去噪过程,而是直接学习把随机的噪声映射到复杂的图像上,同时加上了一致性的规则约束,避免生成的图像出现“驴唇不对马嘴”的情况。

说的更直白一点,我们如果要做一道麻婆豆腐,需要先切豆腐、配菜,然后放在马勺里进行大火翻炒,再放上调料最后出锅。

而Consistency Models的方法是直接就变出一盘麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用户标准来的,这就是该技术的神奇之处。

华为新品发布会10月22日

基于上述技术概念,OpenAI的研究人员使用了知识蒸馏和直接训练两种方法来训练Consistency Models。

知识蒸馏:使用一个预先训练好的扩散模型(如Diffusion),生成一些数据对,然后训练Consistency Models时让这些数据对的输出尽可能接近,来跟扩散模型进行知识蒸馏。

直接训练法:直接从训练集样本中学习数据到噪声的映射,不需要依赖预训练模型。主要是加入噪声进行数据增强,然后优化增强前后的输出一致性。

实验数据

研究人员在多个图像数据集上测试了Consistency Models,包括CIFAR-10、ImageNet64x64和LSUN256x256。

结果表明,知识蒸馏训练的Consistency Models效果最好,在所有数据集和步数下均优于现有最好的蒸馏技术Progressive Distillation。

例如,在CIFAR-10上,单步生成达到新记录的FID3.55,两步生成达到2.93;在ImageNet64x64上,单步生成FID为6.20,两步生成为4.70,均刷新记录。

直接训练方式下,Consistency Models也显示出强大的能力,在CIFAR-10上打败了大多数单步生成模型,质量接近Progressive Distillation。

此外,该模型支持进行零样本图像编辑,可实现图像去噪、插值、上色、超分辨率生成、笔触生成等多种任务,而无需专门训练。

本文素材来源OpenAI官网、论文、开源项目,如有侵权请联系删除

END

opencodec解码器


返回网站首页

本文评论
阿里巴巴董事会成员构成「阿里巴巴公布2022年度股东大会投票表决结果」
  财联社9月30日电,阿里巴巴公布2022年度股东大会投票表决结果:选举张勇、杨致远、Wan Ling MARTELLO及吴港平各自担任公司第二组董事,上述人士均将任职三年或任职至其继任人...
日期:10-01
亚马逊onsite associate programe「亚马逊Alexa负责人驳斥“愚蠢”言论强 调Alexa致力于现实世界用途」
9月23日 消息:据国外媒体报道,随着亚马逊为Alexa设备推出支持大型语言模型,Alexa机器学习总监兼人工智能负责人Prasad在接受VentureBeat采访时表示,Alexa已经升级成为“超级代...
日期:09-23
如何看待日本软银集团将暂停在中国开展新的投资?「软银正在开发日本版ChatGPT预计明年推出」
软银公司正在积极投入到AI相关技术的研发中,其CEO孙正义曾豪言,“如果不能拥抱AI便是失去未来”。目前,软银正在设计“日本版ChatGPT”,并预计将在明年推出这款AI产品。 为了实...
日期:08-07
百度希壤与高通达成战略合作 涉及XR技术、生成式AI、数字人等领域
9月15日 消息:近期,北京百度网讯科技有限公司与高通无线通信技术(中国)有限公司在北京签署非约束性战略合作谅解备忘录,将在XR领域展开全面战略合作。通过此次战略合作的宣布,双...
日期:09-15
linux对amd友好吗「稳定服役两年半后 Linux之父的AMD电脑挂了:意外牵出Intel恩怨」
如果下一个Linux Kernel版本延期,那么不要太惊讶,因为Linux之父Linus Torvalds的电脑坏了。出问题的不是AMD线程撕裂者处理器,而是ECC内存。Torvalds说,自己已经装完机稳定运行...
日期:10-15
新能源车4月销量「4月新能源销量:比亚迪、埃安、理想全线杀疯」
近日,新能源车企相继公布了2023年4月的新车销量情况。具体来看,比亚迪的表现最为亮眼,4月新能源汽车销量21.03万辆,同比增长近一倍,不出意外的话,其还将蝉联国内车企销冠。紧随其...
日期:05-03
全新网络品牌“京智5.5G”发布「京智数码是哪个公司的」
通信世界网消息(CWW)2023年5月26日,中国移动北京公司(北京移动)与华为技术有限公司(华为)合作举办了“京智+”数字经济创新成果发布会。北京市通信管理局副局长黄平、中国移动集团...
日期:05-27
苹果要求三星和 LG 开发 3500ppi 的 OLEDoS 面板用于 MR 设备
9月29日消息:据TheElec了解,苹果已经提高了它希望从三星显示和LG显示的OLED on Silicon(或OLEDoS)面板中获得的规格。消息人士称,该公司最初要求每英寸像素为2800,但现在已经提高...
日期:09-30
CSHIA华东高峰论坛•智能家居生态创新专场,深度聚焦行业创新发展
文/智能头条本次高峰论坛,LifeSmart云起CEO董熠先生、创米数联CEO李建新先生、GVS视声CEO彭永坚先生、云帆瑞达总经理李刚先生、悠达智能CEO吴文茂先生、谊瑞智能副总经理杨...
日期:08-24
酱香拿铁你喝了没?3000万元茅台只够卖1.5天咖啡「拿铁饮料一瓶多少钱」
9月6日消息,有媒体计算,瑞幸公布的酱香拿铁首日销量为542万杯,如果一瓶茅台能做出221杯酱香拿铁,那么第一天用掉的飞天茅台将近2.5万瓶。瑞幸此次购买的3000万元茅台,如果按照市...
日期:09-06
富士康招不招人「奖金8000!富士康招工2400人仅260人报名 为何大家反应冷淡?」
6月14日 消息:离iPhone15系列发布还有三个月的时间,目前富士康的工人已经开始繁忙起来。有知情者透露,郑州富士康正在试制iPhone15系列,并需要增加大量的工人,但目前的情况并未...
日期:06-14
OpenAI联合创始人接受黄仁勋采访:GPT-4表现仍未达预期
近日,OpenAI联合创始人兼首席科学家Ilya Sutskever,与NVIDIA CEO黄仁勋进行了一次深度对谈。硅革命比芯片还重要在谈话中,Ilya Sutskever表达了自己对于GPT-4的看法。海尔技术...
日期:03-24
高德汽车模型「高德发布安全出行大模型 车费异常秒级赔付」
9月20日 消息:9月20日,高德地图联合百家网约车平台,推出系列安全保障举措,保障乘客出行安全。这些举措包括:面向网约车平台开放安全出行大模型,能识别多种风险场景,并实时提示驾...
日期:09-21
小米civi开箱测评「小米Civi 3比iPhone都火:1TB版本仅2999元」
小米Civi 3发布后立刻吸引了众多消费者的关注。这款手机的2499元起的价格相当有竞争力,对于那些想购买一款性价比高的潮流手机的用户来说,小米Civi 3无疑是一个很好的选择。不...
日期:05-28
iPhone15Pro新增灰色 取代原本的金色
据外媒9to5Mac 披露,苹果将在今年的 iPhone15Pro 和 iPhone15Pro Max 两款机型上推出一种新的颜色,名为“泰坦灰”(Titan Gray),这种颜色将取代原有的金色选项。最新的报道还展示...
日期:08-25
性价比高的手机有哪些?近期热门新机盘点-_当前最性价比高的手机
  转眼间,4月份已经进入尾声了,手机市场也迎来了大批新机。最近,经常有朋友问我:目前有哪些性价比高的手机值得入手?毕竟每个人对手机的需求各有不同,对于这个问题,需要仔细探...
日期:09-12
蛋壳公寓连续3年参与大学毕业生成长计划,用行动支持_蛋壳公寓成果
  找工作是很多大学毕业的学生必须经历的一件事情,我国每年都有八百多万的高校毕业生毕业,随之而来的都是找工作的大军。目前由于疫情的原因,再加上新一届的大学生马上就要...
日期:01-24
超过奔驰、丰田 特斯拉首次登上全球汽车品牌价值榜榜首「世界名车特斯拉」
4月9日消息,快科技获悉,近日,国际分析机构英国品牌金融咨询公司(Brand Finance)发布2023年度全球最具价值汽车品牌100强榜单”,特斯拉超越梅赛德斯-奔驰和丰田,登上全球最具价值的...
日期:04-09
公众号可以流量变现吗「天降10万+?“看一看”能重新盘活公众号流量吗」
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:松露 小八,授权转载发布。微信公众号可能还有流量红利。苹果15系列最新爆料真正全面屏最近,不少公众号运营者被“看一看”的...
日期:06-16
华为云重装系统「华为8月8日将推出系统云翻新功能:P40/Mate 30系列首发」
快科技7月28日消息,华为终端今天正式宣布,将于8月8日将推出系统云翻新功能,首发支持华为P40系列及华为Mate 30系列。据介绍,所谓系统云翻新”就是提供免费云空间,让用户可以放心...
日期:07-28