您的位置:首页 > 互联网

基于Stable Diffusion的图像生成与多模态编辑智能体_多模态图像识别

发布时间:2024-07-18 23:26:26  来源:互联网     背景:

通信世界网消息(CWW)随着多模态大模型的不断发展,以“文生图”为代表的人工智能生成内容(AIGC)技术逐步趋于成熟,生成内容的质量与多样性得到了大幅提升,AIGC已为文宣、文档创作、数字人、短视频等领域提供了强大的助力。以Stable Diffusion为代表的扩散模型簇成为“文生图”领域的先进算法之一,该类模型以热力学作为理论基础,采用U-net、Transformer等模型架构,建模图像分布与随机高斯噪声分布关联,进而实现多样化的图像生成。

结合Stable Diffusion模型,中国移动信息技术中心智能AI研发团队提出了一套图像生成与多模态编辑智能体。该智能体能够基于用户输入的文本与条件图像,通过意图识别、槽位提取、任务编排等流程,生成符合用户要求的图像或完成图像内容编辑。目前,该智能体已用于中国移动MOA AI助手、智能交互数字人、妙笔文档等产品中,取得了良好的用户反响。

基于LoRA微调的场景化图像生成方案

为了满足多场景的图像生成需求,研发团队基于Stable Diffusion XL(SDXL)模型,结合LoRA训练策略,构建了一套场景化图像生成方案,如图1所示。该方案主要包括数据准备与预处理、基于LoRA的模型训练以及生成结果后处理三大核心步骤。

图1 基于LoRA微调的场景化图像生成方案

数据准备与预处理

为了解决部分场景数据缺乏的问题,研发团队维护了一个由各公开可商用图片数据集组成的大型数据库,并设计了一套训练样本扩充的自动化方法,减少人工收集与标注工作。其中,数据库中的每个图像包含编号、CLIP图像特征向量与文本标签三个元数据字段。训练样本扩充的自动化方法依托CLIP跨模态对齐模型,生成用户给出的场景示例图像或文字描述的CLIP编码特征。研发团队通过在大型数据库中采用向量余弦相似度检索的方式,检索出相似图像以扩大训练样本。若微调训练数据集还需进一步补充,可采用BLIP“图生文”模型对样例图片生成描述性文本,再通过CLIP文本编码结果在数据库中检索相似图像。

程序员和教师哪个门槛高

在获取训练图像后,还需按照既定格式生成图片提示语标注文件,并为不同的微调数据集赋予不同的触发词。具体而言,采用BLIP“图生文”模型生成图像描述,再由中国移动九天大模型输出符合SDXL模型训练要求的图像生成提示语。

触发词通常为特殊字符或使用较少的词语,可引导模型在出现提示词的情况下才进行场景化图像生成,减少模型的文本漂移现象,不影响原生SDXL模型的生成能力。

在模型微调之前,需要进一步对图像数据进行预处理。由于原生SDXL模型默认的图像大小为1024×1024像素点,难以满足所有业务场景的需求。针对上述问题,研发团队设计了图像数据的预处理方法,即保持图像原始比例不变,以短边对齐方式进行缩放,最后对长边不足部分补齐或对超出部分进行裁剪。其中,用于补齐部分颜色的RGB值为图片像素均值,避免模型生成结果产生边框。裁剪方式则根据场景而定,当图片主体主要位于中心位置时进行中心裁剪,其他情况进行随机裁剪。

基于LoRA的模型训练

多模态图像识别

LoRA是一种高效的参数微调方法,在基座大模型上附加轻量的LoRA模型,能够扩展基础大模型能力,实现对新风格、新对象等概念的快速学习。LoRA微调方法是在基座大模型每个Transformer的全连接层中注入可训练的低秩矩阵,而不用对整个大模型进行微调。LoRA模型参数量仅5M~50M,为SDXL基座模型的千分之一左右,因此相比直接对基座模型微调,LoRA模型训练所占内存开销小,训练时长短,在单张显卡上数小时内就可以完成。此外,同一基座大模型可以搭载不同LoRA模型,能在不同应用场景灵活切换,实现“即插即用”的高效场景化图片生成。

图像质量优化模型簇

在图像质量优化模型簇中,主要包含基于传统统计学和基于人工智能的图像质量优化算法。用户可基于上述图像质量优化算法在不同应用场景进行自由选择,也可不进行任何图像优化,以最大程度满足用户对生成图像的期待。同时,本成果也为用户在实际场景提供了默认推荐的图像质量优化模型选择,方便用户使用。通过合理运用图像质量优化模型簇,可显著提升图像生成的质量,在一定程度上优化用户体验。

图像内容多模态编辑

在图像生成的基础上,研发团队提出了基于SDXL的图像内容多模态编辑算法,包括基于图像与文本的图像内容编辑和基于文本的自由图像内容编辑,分别适用于精确与自由图像编辑场景。图像内容多模态编辑方法如图2所示。

图2 图像内容多模态编辑方法

基于图像与文本的图像内容编辑

基于图像与文本的图像内容编辑能力需要用户提供一个条件图像作为必要输入,提供一段文本描述作为可选输入,主要用于将提供的条件图像与原始图像进行融合,并尽可能贴近用户提供的文本描述。研发团队基于SDXL和ControlNet模型构建图像内容编辑模型。通过将图像填补技术与ControlNet进行深度融合,克服了ControlNet本身无法在任意指定区域融入条件信息的问题。

图像编辑需要准备图文多模态条件信息,具体包含图像编辑位置与编辑区域大小、条件图像和文本提示语。图像编辑位置与编辑区域大小支持两种方式提供:一是提供编辑位置的中心坐标和区域长宽;二是手动进行编辑区域的框选,根据框选区域获得编辑区域大小。

根据提供的图像编辑位置与编辑区域大小信息,生成图像编辑掩码,掩码值为1的区域为编辑区域,其余区域为0。条件图像为必须提供的条件信息,支持各类图像格式、大小和长宽比,该图像会经过边缘提取与缩放等预处理操作,并填入编辑区域中,获得一张与原始图像大小相同的预处理后的条件图像,将该图像输出Control Net中即可同时实现在指定区域中的条件生成。文本提示语作为补充,可让用户输入对图像编辑的要求,进而对生成图像的风格、细节、结构等进行更精确的控制。文本提示语为非必须项,如用户未提供任何提示语,则模型会自动猜测用户意图,实现条件图像与原始图像的融合编辑。

基于文本的自由图像内容编辑

为了提供更开放自由的图像编辑体验,研发团队还研发了基于文本的自由图像内容编辑算法,用户仅需通过文本描述图像需要修改的部分和内容,便可完成图像内容的编辑,无需提供任何条件图像。

本技术采用Instructpix to pix联合SDXL的实现方案,该方案的关键核心是需要构建基于实际场景的图像编辑数据集对SDXL进行微调训练,使其具备文本提示图像编辑的能力。具体而言,首先采用中国移动九天大模型结合编辑指令生成原始图像的原始描述、编辑描述,再结合Prompt to Prompt方法构建编辑图像,最终形成由五元组(原始图像描述、编辑后图像描述、编辑指令、原始图像、编辑后图像)构成的数据集。

五元组数据集构建完成后可开始模型训练过程,输入编辑指令、原始图像和编辑后图像,要求模型输出的编辑后图像与数据集中的编辑后图像尽可能相同,进而不断优化模型权重。训练完成的模型具备输入编辑指令和原始图像、输出图像编辑的能力。相比基于图像与文本的图像内容编辑,这种图像编辑方法无需用户提供待融合的条件图像,因此更加自由。

图像创作智能体

在图像生成与图像编辑能力的基础上,研发团队还进一步将上述能力封装为图像创作智能体。图像创作智能体结合Bert意图识别模型,可精准解析用户输入的文本指令,随后智能体自动规划任务流程,调用相应模型,高效执行各类图像创作任务,其框架如图3所示。

图3 图像创作智能体框架

意图识别模型采用Bert模型架构,通过构造用户指令语料数据集对Bert模型进行微调,实现智能体的意图识别和槽位解析功能。为全面覆盖用户需求,研发团队构建了一个囊括多样用户行为模式的常用指令数据集,结合业务场景并参考内测日志记录的用户指令,总结了常用句式形成模板。在此基础上,运用中国移动九天大模型分析用户指令的语法与词汇特点(包括口语表达与同义词替换),进一步丰富了指令语料。数据集包括图像生成、图像编辑以及其他三大类意图,其中图像生成意图根据不同业务场景,又细分为文宣、人像、背景、图标和自由生成等类别,并随业务发展而持续扩充。截至目前数据集共包含500余条指令样本,规模约1万token。目前,该成果通过在构建的语料数据集上进行20轮迭代训练,可达到96.4%的意图识别准确率。

在智能体的实际运行过程中,一旦确认了用户意图,智能体即刻启动定制化任务链路,规划相应的任务流程。例如,当用户表示“请帮我生成一张元宵祝福图”时,根据识别到的“图像生成—文宣”意图,智能体会自动触发相应流程,包括加载相应的LoRA权重,通过接口传递解析到的槽位文本“元宵祝福”,完成图像生成和优化,并最终将结果推送给客户端,实现流畅的端到端服务。

中国移动信息技术中心积极拥抱大模型前沿技术,深耕AIGC方向,提出图像生成与图像内容的多模态编辑两项能力。在此基础上,进一步由智能体对两项能力进行统一封装和管理,面向不同的用户需求,调用不同的任务流程并完成任务执行工作。未来,中国移动信息技术中心将持续对该智能体进行升级改造,逐步形成包含图像、视频、音频生成的多模态内容生成智能体,进一步推动AIGC技术在中国移动内外部的落地应用。

*本篇刊载于《通信世界》7月10日*

第13期 总947期


返回网站首页

本文评论
消息称华为Mate 50系列确实按5G手机设计:为未来5G回归打基础「华为mate50 5G」
最近,有博主拆解华为Mate 50 Pro后发现,手机PCB上预留了5G射频芯片的位置,附近滤波电容电阻也没有出料。消息一出,引起大家猜测:Mate 50 Pro是按5G手机来设计的吗?后续能升级成5G...
日期:09-27
快手调整【消费者保障】规则 将于10月18日生效_快手官方新规定
10月11日 消息:今天,快手发布关于【消费者极致保障】规则的调整公告。公告称,为提升商户/带货达人服务水平和经营质量,给消费者创造更好的购物体验,现对《快手小店售后服务管理...
日期:10-15
小米su7公布售价时间号称“上市即交付” 小米SU7官宣3月28日上市
来源:中关村在线realme和三星小米汽车官方已正式公布,其首款车型小米SU7的发布会将于3月28日举行,并且全国范围内将有29个城市和59家门店在同一天启动该车型的预约活动。小米SU...
日期:03-13
iphone12pro max免税店「iPhone14 Plus免税版开售:才便宜200元?」
iPhone 14 Plus终于开售,不过6999元的价格却偏贵,使得开售就破发。目前海南免税店的iPhone 14 Plus也开售,但低配版只比官网便宜209元。根据海南免税店发布的消息,iPhone 14 Plu...
日期:10-23
马斯克生6个孩子「马斯克谈生育率下降 有孩子的快乐是无法比拟的」
当地时间6月18日,马斯克在推特总部接受播客Zuby专访时说,如果出生率每年都在下降,而人口逐渐进入消极的死亡漩涡,这样很不合理。世界在成人尿布中、在哭泣中灭亡,这对文明是一种...
日期:06-21
深圳地铁感谢格力:用了格力空调一年省1456万元!_深圳格力空调厂的具体地址在哪里
快科技2月5日消息,据格力电器”官微,2022年底,搭载格力高效智能环控系统的深圳地铁12号线正式开通运营。经过一年多的使用,深圳地铁建设集团有限公司近日向格力发来感谢信。苹果...
日期:02-05
华为WATCH 4新款智能手表官宣、号称“捅破天”_华为智能手表4g版怎么样
5月9日消息,华为已经官宣了将于5月18日正式召开夏季全场景新品发布会,今天,华为官宣了智能穿戴新品——华为WATCH 4系列。在宣传海报上,有“腕变宇宙”的宣传语,并配上多个星球,或...
日期:05-09
世界富豪榜马斯克「《福布斯》年度富豪榜:马斯克失首富 贝佐斯最惨」
凤凰网科技讯 北京时间4月5日消息,2022年对科技公司来说是艰难的一年,股价的暴跌也给这些公司创始人的财富造成了巨大损失。《福布斯》周二发布了2023年度全球富豪排行榜,确定...
日期:04-05
Runway 的AI视频编辑器 Gen-2 开放免费试用_视频编辑软件ai
6月8日 消息:纽约AI初创公司Runway正在开发具有AI功能的视频编辑工具比如Gen-1AI 模型中,用户已经能够使用简单的文本提示编辑视频。新的Gen-2功能更进一步加强,它支持从文本...
日期:06-08
小米15亿「雷军:小米15起步价一定会提高 把产品功能和体验做得更好」
11月8日 消息:小米公司的CEO雷军近日在微博上公开了小米14系列的完整总结图,并呼吁广大网友提供关于下一代机型如何升级的建议。雷军在回复网友时明确表示:“起步价一定会提...
日期:11-10
openai公司「OpenAI竞争对手Mistral 正在洽谈以50亿美元估值筹集资金」
4月17日 消息:据最新消息,OpenAI 在欧洲的竞争对手 Mistral 正在进行谈判,计划以高达50亿美元的估值筹集资金。据一位直接知情人士透露,Mistral 是一家总部位于巴黎的开源人工...
日期:04-17
Apache Log4j 又出现漏洞,发现者建议尽快升级到 2.16.0
  12 月 17 日消息,最近的 Log4j 漏洞想必大家都知道了,12 月 9 日晚,开源项目 Apache Log4j 2 的一个远程代码执行漏洞的利用细节被公开,随着 Apache Log4j 2.15.0 正式版发...
日期:07-17
绿盟科技叶晓虎:只有云安全才能让客户获得全面弹性的安全能力
最近关店的品牌  讯 8月23日晚间消息,近日,在绿盟科技TechWorld技术嘉年华上,绿盟科技集团首席技术官叶晓虎发言指出,数字化浪潮不可阻挡,而数字化创新需要坚实的安全底座,只有...
日期:08-24
5G时代首冠诞生,荣耀618摘得全平台销量冠军(618手机品牌战报出炉:荣耀夺得销量冠军,小米5G最吃香)
  2020年618如期结束,大促冠军浮出水面。根据官方数据显示,截至6月18日23:59,荣耀斩获6.18全平台当日及累计手机销量冠军,成功加冕5G时代首冠。在手机品类之外,荣耀智慧...
日期:07-14
会有 3 次“Moment”更新,微软 Win11 的 2023 年路线图曝光
IT之家 12 月 29 日消息,微软在 2022 年共计为 Win11 推出了 2 次功能更新,其第一个 Version 22H2(或者叫作 2022 Update)在今年 9 月推出,而“Moment 1”更新则在 1 个月后推出...
日期:12-29
房山通信抢险纪实 | 8月8日,抢通29个村庄「房山线挤」
房山通信抢险纪实 | 8月8日,抢通29个村庄 通信产业网|2023-08-09 13:00:14作者:王欢来源:通信产业网【通信产业网讯】房山区是北京市的西南门户,地处华北平原与太行山交界地带,地...
日期:08-09
力挫《战神:诸神黄昏》!《艾尔登法环》摘得2022年TGA年度游戏大奖
今天上午,有游戏界春晚”之称的TGA 2022正式落下帷幕,年度最佳游戏的奖项也终于出炉。本届年度最佳游戏的提名为:《瘟疫传说:安魂曲》《艾尔登法环》《战神:诸神黄昏》《地平线西...
日期:12-10
谁该优先成为国家中心城市_候选国家中心城市
图片来源:摄图网501740758“科技、产业最后会回归到大城市、中心城市,这改变不了。大的方面来说是聚集的,(向)大的空间特定的中心城市,小的方面是分散的,多中心、网络化的结构。”1...
日期:12-15
三星s25ultra外观曝出Ultra美国版现身数据库 配置曝光 三星S25
来源:中关村在线三星正在积极开发其旗舰产品Galaxy S25 Ultra,预计将引领行业新标杆。作为三星明星产品线之一,Galaxy S系列自诞生以来以其卓越性能和创新设计赢得了全球消费者...
日期:06-07
爱奇艺会员每个月「爱奇艺回应2月充会员只能用28天 按自然月计算」
3月2日 消息:近日,有少部分2月续费月度会员的网友表示,自己刚充值的会员有效时长只有28天,比往常少了2天。质疑爱奇艺会员的计算规则有问题。苹果手机12pro max跑分新能源车世...
日期:03-02