您的位置:首页 > 互联网

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

发布时间:2023-11-15 19:33:45  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

生成式模型进入实时时代?

文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中,我们发现它们通常运行缓慢,导致我们要等一段时间才能拿到生成结果。

但最近,一种名叫LCM的模型改变了这种情况,它甚至能做到实时的连续生图。

图源:https://twitter.com/javilopen/status/1724398666889224590

LCM 的全称是 Latent Consistency Models(潜在一致性模型),由清华大学交叉信息研究院的研究者们构建。在这个模型发布之前,Stable Diffusion 等潜在扩散模型(LDM)由于迭代采样过程计算量大,生成速度非常缓慢。通过一些创新性的方法,LCM 只用少数的几步推理就能生成高分辨率图像。据统计,LCM 能将主流文生图模型的效率提高5-10倍,所以能呈现出实时的效果。

在抖音上开个小店需要多少钱

  • 论文链接:https://arxiv.org/pdf/2310.04378.pdf

  • 项目地址:https://github.com/luosiallen/latent-consistency-model

该文章发布一个月内浏览量超百万,作者也被邀请在 Hugging Face、Replicate、浦源等多个平台部署新研发的 LCM 模型和 demo。其中 Hugging Face 平台上 LCM 模型下载量已超20万次,而在 Replicate 中在线 API 调用已超54万次。

在此基础上,研究团队进一步提出 LCM-LoRA,可以将 LCM 的快速采样能力在未经任何额外训练的情况下迁移到其他 LoRA 模型上,为开源社区已经存在的大量不同画风的模型提供了一个直接而有效的解决方案。

技术报告链接:https://arxiv.org/pdf/2311.05556.pdf

潜在一致性模型的快速生成能力为图像生成技术开辟了新的应用领域。这种模型可以快速地根据输入的文本(Prompt)处理和渲染实时捕捉到的画面,从而实现高速图像生成。这意味着用户可以自定义他们想要展示的场景或视觉效果。

在 X 平台上,不少研究者也晒出了他们利用该模型实现的生成效果,包括图生图、视频生成、图像编辑、实时视频渲染等各类应用。

图源:https://twitter.com/javilopen/status/1724398666889224590

图源:https://twitter.com/javilopen/status/1724398708052414748

作者团队现已完全开源 LCM 的代码,并开放了基于 SD-v1.5、SDXL 等预训练模型在内蒸馏得到的模型权重文件和在线 demo。此外,Hugging Face 团队已经将潜在一致性模型集成进入 diffusers 官方仓库,并在两个接连的正式版本 v0.22.0和 v0.23.0中先后更新了 LCM 和 LCM-LoRA 的相关代码框架,提供了对潜在一致性模型的良好支持。在 Hugging Face 上开放的模型在今日的热度榜中达到全平台文生图模型热度第一,全类别模型热度第三。

接下来,我们将分别介绍 LCM 和 LCM-LoRA 这两项研究成果。

LCM:只用几步推理就能生成高分辨率图像

AIGC 时代,包括 Stable Diffusion 和 DALL-E3等基于扩散模型的文生图模型受到了广泛关注。扩散模型通过向训练数据添加噪声,然后逆转这一过程来生成高质量图像。然而,扩散模型生成图片需要进行多步采样,这一过程相对较慢,增加了推理成本。缓慢的多步采样问题是部署这类模型时的主要瓶颈。

OpenAI 的宋飏博士在今年提出的一致性模型(Consistency Model,CM)为解决上述问题提供了一个思路。一致性模型被指出在设计上具有单步生成的能力,展现出极大的加速扩散模型的生成的潜力。然而,由于一致性模型局限于无条件图片生成,导致包括文生图、图生图等在内的许多实际应用还难以享受这一模型的潜在优势。

潜在一致性模型(Latent Consistency Model,LCM)就是为解决上述问题而诞生的。潜在一致性模型支持给定条件的图像生成任务,并结合了潜在编码、无分类器引导等诸多在扩散模型中被广泛应用的技术,大大加速了条件去噪过程,为诸多具有实际应用意义的任务打开了一条通路。

LCM 技术细节

具体而言,潜在一致性模型将扩散模型的去噪问题解读为求解如下所示的增广概率流常微分方程的过程。

传统的扩散模型采用数值方法对常微分方程进行迭代求解,虽然可以通过设计更加精确的求解器来改善每一步的求解精度,减少所需要的迭代次数,但是这些方法中最好的也仍然需要10步左右的迭代步数来得到足够好的求解结果。

不同于迭代求解这一常微分方程,潜在一致性模型要求对常微分方程进行直接的单步求解,直接预测方程的最终解,从而在理论上能够在单步内生成图片。

一加 安卓12

为了训练得到潜在一致性模型,该研究指出可以通过对于预训练的扩散模型(例如,Stable Diffusion)进行参数微调,在极少的资源消耗下赋予模型快速生成的效果。这一蒸馏过程基于对宋飏博士提出的一致性损失函数的优化。为了在文生图任务上获得更好的表现并减少计算开销,本文提出了三点关键技术:

(1)使用预训练的自动编码器将原始图片编码到潜在空间,在压缩图片中冗余信息的同时让图片在语义上具有更好的一致性;

(二)将无分类器引导作为模型的一个输入参数蒸馏进潜在一致性模型中,在享受无分类器引导带来的更好的图片 - 文本的一致性的同时,由于无分类器引导幅度被作为输入参数蒸馏进了潜在一致性模型,从而能够减少推理时的所需要的计算开销;

(三)使用跳步策略来计算一致性损失,大大加快了潜在一致性模型的蒸馏过程。潜在一致性模型的蒸馏算法的伪代码见下图。

定性和定量化的结果展示了潜在一致性模型的快速生成能力,该模型能够在1~4步内生成高质量图片。通过比较实际的推理时间和生成质量指标 FID,可以看到,潜在一致性模型相比于现有的最快的采样器之一的 DPM solver++ 能够在保持同等生成质量的前提下实现约4倍的实际推理时间加速。

哈啰单车盈利了吗

LCM 生成的图像

LCM-LORA: 一个通用的 Stable Diffusion 加速模块

在潜在一致性模型的基础上,作者团队随后进一步发布了他们关于 LCM-LoRA 的技术报告。由于潜在一致性模型的蒸馏过程可以被视作是对于原有的预训练模型的微调过程,从而可以使用 LoRA 等高效微调技术来训练潜在一致性模型。得益于 LoRA 技术带来的资源节省,作者团队在 Stable Diffusion 系列中参数量最大的 SDXL 模型上进行了蒸馏,成功得到了能够在极少步数内生成与 SDXL 数十步相媲美的潜在一致性模型。

在论文 INTRODUCTION 部分,该研究表示尽管潜在扩散模型(LDM)在文生图、线稿生图等方面取得了成功,但其固有的缓慢反向采样过程阻碍了实时应用,影响了用户体验。目前的开源模型和加速技术还无法在标准消费级 GPU 上实现实时生成。

加速 LDM 的方法一般分为两类:第一类涉及先进的 ODE 求解器,如 DDIM、DPMSolver 和 DPM-Solver++,以加快生成过程。第二类涉及蒸馏 LDM 以简化其功能。ODE - 求解器减少了推理步骤,但仍需要大量的计算开销,尤其是在采用无分类器指导时。同时,蒸馏方法(如 Guided-Distill)虽然前景广阔,但由于其密集的计算要求而面临实际限制。在 LDM 生成图像的速度和质量之间寻求平衡仍然是该领域的一项挑战。

最近,受一致性模型(Consistency Model,CM)的启发,潜在一致性模型(Latent Consistency Model,LCM)出现了,作为图像生成中缓慢采样问题的一种解决方案。LCM 将反向扩散过程视为增强概率流 ODE(PF-ODE)问题。这类模型创新性地预测了潜空间中的解,不需要通过数值 ODE 求解器进行迭代求解。因此,它们合成高分辨率图像的效率非常高,只需1到4个推理步骤。此外,LCM 在蒸馏效率方面也很突出,只需用 A100个训练32个小时就能完成最小步骤的推理。

iphone5停产时间

在此基础上,Latent Consistency Finetuning(LCF)被开发为一种无需从教师扩散模型开始就能对预训练 LCM 进行微调的方法。对于专业数据集,如动漫、真实照片或奇幻图像数据集,它还需要额外的步骤,如采用潜在一致性蒸馏法(LCD)将预训练的 LDM 蒸馏为 LCM,或直接使用 LCF 对 LCM 进行微调。然而,这种额外的训练可能会阻碍 LCM 在不同数据集上的快速部署,这就提出了一个关键问题:是否可以在自定义数据集上实现快速、无需训练的推理。

为了回答上述问题,研究者提出了 LCM-LoRA,它是一种通用的免训练加速模块,可以直接插入各种 Stable-Diffusion(SD)微调模型或 SD LoRA 中,以最少的步骤支持快速推理。与 DDIM、DPM-Solver 和 DPM-Solver++ 等早期数值概率流 ODE(PF-ODE)求解器相比,LCM-LoRA 代表了一类基于神经网络的新型 PF-ODE 求解器模块。它在各种微调的 SD 模型和 LoRA 中展示了强大的泛化能力。

LCM-LoRA 概况图。通过在 LCM 的蒸馏过程中引入 LoRA,该研究大大减少了蒸馏的内存开销,这使得他们能够利用有限的资源训练更大的模型,例如 SDXL 和 SSD-1B。更重要的是,通过 LCM-LoRA 训练获得的 LoRA 参数(acceleration vector)可以直接与在特定风格数据集上微调获得的其他 LoRA 参数(style vetcor)相结合。无需任何训练,通过 acceleration vector 和 style vetcor 的线性组合获得的模型就能以最少的采样步骤生成特定绘画风格的图像。

LCM-LoRA 技术细节

通常来讲,潜在一致性模型的训练采用单阶段指导蒸馏方式进行,这种方法利用预训练的自编码器潜在空间将指导扩散模型蒸馏为 LCM。此过程涉及增强概率流 ODE,我们可以将其理解为一种数学公式,这样一来可确保生成的样本遵循生成高质量图像的轨迹。

值得一提的是,蒸馏的重点是保持这些轨迹的保真度,同时显着减少所需的采样步骤数量。算法1提供了 LCD 的伪代码。

由于 LCM 的蒸馏过程是在预训练扩散模型的参数上进行的,因此我们可以将潜在一致性蒸馏视为扩散模型的微调过程,从而就可以采用一些高效的调参方法,如 LoRA。

LoRA 通过应用低秩分解来更新预训练的权重矩阵。具体而言,给定一个权重矩阵

,其更新方式表述为

,其中

,训练过程中,W_0保持不变,梯度更新只应用于 A 和 B 两个参数。因而对于输入 x,前向传播的更改表述为:

h 代表输出向量,从公式(1)可以观察到,通过将完整参数矩阵分解为两个低秩矩阵的乘积,LoRA 显着减少了可训练参数的数量,从而降低了内存使用量。

下表将完整模型中的参数总数与使用 LoRA 技术时的可训练参数进行了比较。显然,通过在 LCM 蒸馏过程中结合 LoRA 技术,可训练参数的数量显着减少,有效降低了训练的内存需求。

该研究通过一系列实验表明 :LCD 范式可以很好地适应更大的模型如 SDXL 、 SSD-1B ,不同模型的生成结果如图2所示。

除了使用 LoRA 技术来让蒸馏过程更加高效,作者还发现了由此训练得到的 LoRA 参数可以被作为一种泛用的加速模块,直接与其他 LoRA 参数结合。

如上图1所示,作者团队发现,只需要将在特定风格数据集上微调得到的 “风格参数” 与经过潜在一致性蒸馏得到的 “加速参数” 进行简单的线性组合,就可以获得兼具快速生成能力和特定风格的全新潜在一致性模型。这一发现为现有开源社区内已存在的大量开源模型提供了极强的助力,使得这些模型甚至可以在无需任何额外训练的情况下享受潜在一致性模型带来的加速效果。

下图展示了使用这一方法改善 “剪纸画风” 模型后得到的新的模型的生成效果。

总之,LCM-LoRA 是一种用于 Stable-Diffusion (SD) 模型的通用免训练加速模块。其可以作为独立且高效的基于神经网络的求解器模块来预测 PF-ODE 的解,从而能够在各种微调的 SD 模型和 SD LoRA 上以最少的步骤进行快速推理。大量的文本到图像生成实验证明了 LCM-LoRA 强大的泛化能力和优越性。

团队介绍

论文作者成员全部来自清华叉院,两位共同一作分别是骆思勉,谭亦钦。

骆思勉是清华叉院二年级硕士,导师为赵行老师。本科毕业于复旦大学大数据学院。研究方向为多模态生成模型,研究兴趣为扩散模型,一致性模型,AIGC加速,致力于研发下一代生成模型。此前也以一作身份多篇论文发表在ICCV,NeurIPS顶会上。

谭亦钦是清华叉院二年级硕士,导师为黄隆波老师。本科毕业于清华大学电子工程系。研究方向包括深度强化学习、扩散模型。此前以一作身份在ICLR等会议上发表spotlight论文和口头报告。

值得一提的是,两位共一是在叉院李建老师的高等计算机理论课上,提出了LCM的想法,并最后作为期末课程项目进行了展示。三位指导老师中,李建和黄隆波是清华交叉信息院副教授,赵行是清华交叉信息院助理教授。


返回网站首页

本文评论
卡巴斯基:苹果iOS面临潜在的安全问题
  【赛迪网讯】北京时间6月21日,据国外媒体报道,来自卡巴斯基首席技术官Nikolay Grebennikov的消息称,苹果对于iOS系统的严格控制会导致安全风险。他认为苹果不应该再继续将...
日期:07-30
推出全球首款“数字光耳机”HHOGene GPods 原钉钉创始人无招再创业
文/果青有这样一群互联网人,从没做过制造业,却声称要用数字化思维改造制造业。首战18个月创造出全球首款“数字光控耳机”GPods,成功将光电融为一体,让蓝牙耳机一举迈入“个性...
日期:09-19
一用户网购手机激活后要求七天无理由退货 法院:可退 店铺告知存在瑕疵
11月14日 消息:据山东高法公众号消息,近日,青岛市崂山区人民法院审理一起网购纠纷案件。谷歌正式发布Android12美团腾讯是港股吗spacex发射53颗卫星阿里收购了美团吗张某通过A...
日期:11-14
美图:AI商品图、AI模特试衣功能累计服务超150万电商用户_itme美图官网地址
11月7日 消息:美图官方表示,美图设计室在2023淘宝天猫开放生态 AIGC 挑战赛中获得了双赛道冠军。在比赛中,美图设计室的 “AI 商品图” 功能给专家评委留下了深刻的印象,其效果...
日期:11-08
苹果13的成本是多少「iPhone 14零件成本较13上涨20%:苹果卖一部仍能赚5000多元」
2022年由于通胀、物流及大宗商品原料等原因,电子产品的成本都会有不同程度上涨,苹果的iPhone 14手机也不例外,日本拆解显示iPhone 14系列手机的零部件成本比iPhone 13上涨了20%...
日期:10-09
新一批游戏版号过审_游戏版号过审量逐月增加:年内241款游戏获批,网易等大厂仍缺席
apple watch在美国卖多少钱李彦宏是农村的吗micro led产业链oppo手机小布助手是什么淘集集东西怎样   华夏时报记者 于玉金 北京报道   8月第一天,游戏公司们迎来了今年...
日期:08-03
打破纪录?联通靓号15666666666起拍价高达1366万元_联通超级靓号
【手机中国新闻】你永远不知道一些手机靓号能值多少钱,经过拍卖平台上的价格追逐之后,它们的“身价”可能达到你难以想象的地步。9月13日消息,阿里资产拍卖平台近日上线了一个...
日期:09-14
“VoNR+”网络架构研究与实践_vpdn网络结构
通信世界网消息(CWW)5G时代,基于音视频的多媒体实时通信作为运营商的核心服务之一,满足了全球80亿人的基本沟通需求,是运营商不可或缺的基本业务能力。随着5G网络连续覆盖的逐步...
日期:10-24
Python团队官宣下线GIL:可选择性关闭_python gil 解决
克雷西 发自 凹非寺量子位 | 公众号 QbitAI鹅妹子嘤!拖累AI和ML运算的GIL锁终于关!闭!了!Python官方宣布,在新版的CPython中,GIL锁将成为「可选择项」。人们终于不必再受到这一限...
日期:07-31
希捷硬盘ssd「希捷发布首款PCIe 5.0 SSD:残血10GB/s但写不死!1TB只需1300元」
快科技6月27日消息,传统硬盘大厂商希捷发布了自己的首款PCIe 5.0 SSD,型号为FireCuda 540,可惜性能残血。FireCuda 540采用标准的M.2 2280,支持PCIe 5.0 x4、NVMe 2.0,主控是大家...
日期:06-28
亚马逊砍掉在线医疗业务 科技巨头为何做不好互联网医疗?「互联网医疗市场竞争」
  亚马逊此举对全球互联网医疗发展有何影响?是否意味着互联网医疗陷入了无法突破的发展困境?互联网公司ipo  随着互联网的普及、信息科技的高速发展,零售、物流、金融、餐...
日期:09-01
网页浏览进入“云加速”时代  搜狗高速浏览器升级领跑
  云计算理念正在各大IT领域开花结果,颠覆着固有的技术和应用架构。日前,搜狗高速浏览器重装升级,部署了其独家研发并率先应用的“云加速”浏览技术,通过将“全网加速”策略...
日期:07-29
杭州医保网上购药平台_杭州市医保局与阿里健康启动网上购药医保在线支付试点
  6月17日,记者从杭州市医保局获悉,通过与阿里健康的合作,杭州市网上购药医保在线支付试点项目已经正式上线,杭州参保人员可享受“网上下单买药、医保线上支付、快递配送到家...
日期:02-17
消息称苹果 Apple Watch Series 8 标准版不会重新设计_apple watch series 7 发布
IT之家 8 月 5 日消息,苹果 Apple Watch Series 8 预计将在 9 月发布,根据最新的爆料,新的标准版将采用与 Apple Watch Series 7 相同的设计。根据爆料者 @ShrimpApplePro 的说...
日期:09-26
会员也能“拼车”了?京东Plus家庭会员开启内测_京东plus会员赠亲友
快科技4月21日消息,近日,有用户发现,京东开启了Plus会员家庭共享的内测。每日优鲜上市股价华为mate50pro5g今年能上市吗根据测试界面展示的信息,京东Plus家庭会员将免费为开通京...
日期:04-21
华为云物联网平台技术与实践pdf_技术+产业双轮驱动,华为云加速云原生创新
  容器技术提升了企业IT架构的敏捷性,尤其在应对商业发展中的各种不确定性,敏捷的IT架构能够加速应用创新,以适应不断变化的市场节奏。   近年来,随着各企业在云原生方面投...
日期:07-14
苹果宣布推出iPhone 15系列手机_苹果iphone15什么时候上市
财联社9月13日电,苹果宣布推出iPhone 15系列手机。富途证券 esop系统互联网加线上线下...
日期:09-13
iPhone维修前要做哪些准备?苹果公司提醒做好三件事(苹果手机维修之前需要做什么)
  iPhone维修前要做哪些准备?   今天,Apple支持官方微博介绍,在iPhone送修前要做好三件事:   一是为iPhone备份   在家先用iCloud或电脑备个份,把iPhone里存的照片、文...
日期:08-14
哈啰打车:哈啰自营运力已接入所有主流聚合平台_哈啰出行平台
4月20日消息,近日,有媒体消息称,在花小猪平台已有哈啰打车运力选项,显示哈啰打车或已与花小猪达成了接入合作。对此,哈啰打车方面回应表示,哈啰自营运力已经实现高德支付宝小程序...
日期:04-20
网络专家给疆企支招:用1年提升软硬件水平
  10个月后,新疆维吾尔自治区人民政府新闻办公室公告称,全面恢复新疆的互联网业务,疆内用户可以正常浏览国内外的商业网站。更重要的是,新疆经济也将随着互联网恢复后,商业活...
日期:07-29