您的位置:首页 > 互联网

AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品

发布时间:2024-06-16 15:16:40  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),授权转载发布。

让AI画漫画角色保持一致的新研究来了!

创作的连环画效果belike:

频繁切换主体、人物之间复杂的互动也能保持角色一致性:

上述效果来自AutoStudio,是一个由中山大学和联想团队联合提出的无需训练的多智能体协同框架。

AutoStudio采用基于大语言模型的三个智能体来处理交互,并使用基于扩散模型的Drawer生成高质量图像。

实验中,AutoStudio无论是在定量还是定性评估中都优于现有方法。

AutoStudio长啥样?

由于最先进的T2I生成模型在生成令人印象深刻的单个图像方面表现出了卓越的能力,研究界对更复杂的多轮交互式图像生成工作的兴趣与日俱增。

在现实世界的应用中,用户经常需要以交互方式生成一系列图像,其中包括各种任务,如开放式故事生成和多主体多轮编辑。

然而,目前的方法大多数要求预先定义所有轮的生成指令,并且在面对不同的用户指令(如定制、编辑和大量交叉引用)时,很难在多个主体之间保持一致性。

为了解决这些问题,研究团队引入了AutoStudio,这是一个多智能体、无需训练的框架,具有四个特别定制的智能体,利用现成的模型与用户进行即时交互。

他们的目标是引入一个多功能、可扩展的框架,通过多智能体协作,可以将任何所需的LLM架构和扩散骨干结合到框架中,以满足用户多轮生成的多样化需求。

具体而言,AutoStudio包括三个基于LLM的智能体:

  • 主题管理器解释对话,识别不同的主题,并为其分配适当的上下文;

  • 布局生成器为每个主题生成部分级别的边界框,以控制主题的位置;

  • 监督员为布局生成器提供布局改进和修正的建议。

最后,绘制器基于扩散模型完成基于改进布局的图像生成。

此外,研究人员在绘制器中引入了一个并行UNet(P-UNet),它具有一种新颖的架构,利用两个并行的交叉注意力模块分别增强文本和图像嵌入的潜在主题特征。

为了进一步解决SD在理解长提示和生成过程中缺失和错误融合主题的限制,研究人员在绘制器中引入了一种主题初始化的生成方法。

接下来是对AutoStudio架构的详细说明。

多智能体协同

研究团队首先引入一个主题管理器Manager,它不仅能为主题及其组件分配ID,还能将用户提示转换为绘图说明。

然后,布局生成器Layout Generator对这些标题进行处理,生成粗略的布局,其中包含每个主题及其组件的边界框和信息。

为了纠正不合理的主体内和主体间空间关系并完善粗略布局,引入了一个监督器Supervisor。

该监督器将粗布局作为输入,并向布局生成器提供建议。

通过这种方式,Supervisor和Layout Generator密切协作,形成一个布局细化的闭环流程。

此外,研究团队还定义了一组任务介绍,以指导这三个基于 LLM 的代理生成格式正确的响应。

最后,给定细化布局和从主体库中获取的主体信息,绘图器Drawer可以生成与布局对齐且包含一致主体的图像。

主体初始化生成过程

为了解决多ID绑定任务中主体丢失和融合的问题,研究人员引入主体初始化生成过程。

这个过程包括对主体粗粒度特征的单独生成,使用提取器提取特征并通过正向扩散映射到潜空间并在全局生成的初始几步进行局部替换。

P-UNet

Stable Diffusion模型中的原始UNet利用交叉注意模块来利用文本特征,但这不足以表示多个主体的空间关系和特征。

因此,研究人员提出了利用免训练布局调整注意力模块的P-UNet。

为什么索尼ps5那么贵

将UNet层的原始交叉注意模块拆分为两个并行的文本和图像交叉注意模块(分别称为PTCA和PICA)来细化Z,这两个模块具有相同的架构,其主要思想是计算Z与每个主体文本/图像嵌入之间的特征相似性。

AutoStudio效果如何?

研究人员在CMIGBench上利用所选的基准模型对AutoStudio进行了全面评估。

CMIGBench基于故事生成和多轮编辑,包含8000个多轮脚本对话(每个任务4000个)。

研究人员选择了平均弗雷谢特起始距离(aFID)和平均字符-字符相似度(aCCS)这两个定量指标来评估上下文一致性,并选择了平均文本-图像相似度(aTIS)来评估主体间的语义一致性。

结果,AutoStudio在所有指标上都明显优于之前的方法。

下图展示了多轮交互式图像生成的可视化结果,表明AutoStudio能够理解用户的自然语言指令,并生成主题一致的图像。

相比而言,Theatergen无法处理人物之间复杂的互动(如拥抱和接吻),而MiniGemini则难以保持主体的一致性。

Intelligent Grimm和StoryDiffusion无法在多回合互动中保持多个角色之间的一致性,并表现出有限的编辑效果。

论文链接:https://arxiv.org/abs/2406.01388

项目主页:https://howe183.github.io/AutoStudio.io/

—完—


返回网站首页

本文评论
腾讯四季度财报「腾讯第三季度财报出炉:员工数量超10万人 人均月薪8万」
11月16日消息,今日,腾讯公布2022年第三季度财报,数据显示,腾讯第三季度实现营业收入1400.93亿元,同比跌幅收窄至2%,净利润322.54亿元,同比增长2%,在连续四个季度的下跌后回稳。营业...
日期:11-18
雷军小米汽车售价「要跻身全球前五!雷军透露小米汽车价格:不可能14.9万」
12月28日 消息:在今日下午的小米汽车技术发布会上,小米集团创始人雷军就小米汽车的售价发表了看法。他明确表示,小米汽车9.9万的定价是不可能的,而14.9万也无需再讨论。21h2的w...
日期:12-29
郁美净集团「郁美净董事长直播间跳舞 凭舞技吸粉67万」
在中国国货品牌热潮中,天津老牌国货品牌“郁美净”最近注册了社交媒体账号,引起了网友的关注。郁美净官方微博宣布将在抖音开播,并宣布进入社交媒体领域。该举动受到了许多人的...
日期:09-15
AI代码神器火了,复杂操作秒变easy,网友:要抛弃VS Code了_ai代码大全
声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:西风 ,授权转载发布。最近,AI代码编辑器Cursor火了——凭借接入GPT-3.5/GPT-4,可实现跨文件提问和执行操作,一举成为新晋卷王...
日期:08-22
美的鲲禹模块化磁悬浮离心机,焕新上海第一百货商店
坐落于上海市黄浦区南京路的上海第 一百货商店,是建国后第 一家国有百货零售企业。它的所在地原名大新公司, 1936 年正式开张营业,是当时远东最 大的百货商店。新中国成立后,上...
日期:09-28
华为nova 10系列/nova 9系列启动HarmonyOS 3公测招募
11月8日消息 华为nova10系列、华为nova9系列现已启动HarmonyOS3公测招募。HarmonyOS3新功能包括智能桌面布局、音频共享等,功能升级带来全新用机体验,大家可以用起来。机型包...
日期:11-12
英国电价飙升汽油短缺「能源价格高涨,英国电动汽车快充费逼近油车加油费」
  据英国广播公司26日报道,最新一项调查显示,由于英国能源价格高涨,用公共充电桩给电动汽车快速充电的花销,已经和燃油车加油费差不多。根据英国皇家汽车俱乐部的调查,自5月以...
日期:09-28
语言大爆发什么意思「并非越大越好!OpenAI CEO:大语言模型规模已逼近极限」
var cid = "1515866".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.spli...
日期:04-17
中国车企出海:卖到哪里?谁赚麻了?_中国汽车出口海外
声明:本文来自于微信公众号定焦(dingjiaoone),作者 | 黎明 编辑 | 魏佳,授权转载发布。去年,中国一共卖掉了3009万辆汽车,其中有491万辆被卖到海外。如果算上二手车,海外的数字还要...
日期:04-15
搜狗搜索App停服,更名后的Bingo也已下架
IT之家8月12日消息,据三言财经今日报道,搜狗搜索近日发布公告称,搜狗搜索App已于2022年8月8日23时59分正式停止服务,后续搜狗搜索App将无法使用,而搜狗搜索引擎服务可继续在网页...
日期:08-12
授权技术给微软-Azure上托管Inflection-2.5 Inflection公司求变_微软授权方式
IT之家 3 月 21 日消息,根据彭博社报道,Inflection AI 关键领导层加入微软之后,该公司计划将其技术授权给微软。Inflection AI 公司首席执行官穆斯塔法・苏莱曼(Mustafa Suleyma...
日期:03-21
美股大跌周一股市走势「美股周一:三大股指全线下跌,纳指跌逾1%,特斯拉跌超6%」
6月27日消息,美国时间周一,美股收盘主要股指全线下跌。美债收益率上涨,投资者不再押注美联储今年将降息。道琼斯指数收于33714.71点,下跌12.72点,跌幅0.04%;标准普尔500指数收于43...
日期:06-27
互动CEM成为存量市场发展新风口,小蚁数智如何出奇制胜?
  CEM又称用户体验管理,以提高用户体验为出发点,为用户传递目标信息、创造匹配品牌,进而创造差异化的用户体验。随着消费升级以及数字化对传统行业颠覆,催化了用户体验管理市...
日期:07-10
iQOO首款自研电竞芯片Q1发布:支持超帧超分并发_电竞手机iqoo
在刚刚结束的iQOO 12系列新品发布会上,首款自研电竞芯片Q1正式亮相。这款芯片支持超帧超分并发技术,并使用了新一代自研超分技术,通过并行渲染算法提高采样效率4倍,执行效率提高...
日期:11-09
完成“全系旗舰”变阵:Xiaomi Civi 4 Pro迎跨越式升级_小米civipro什么时候上市
完成“全系旗舰”变阵:Xiaomi Civi 4 Pro迎跨越式升级 通信产业网|2024-03-21 17:50:19作者:党博文来源:通信产业网3月21日,小米集团正式发布潮流旗舰Xiaomi Civi 4 Pro,小米集团...
日期:03-22
摩托罗拉gs「不到1000元!摩托罗拉推出新款G24 Power手机」
据印度报道,摩托罗拉近日推出了一款新的入门级智能手机——moto G24 Power。这款价格不到千元的新机配备了联发科Helio G86芯片和6.5英寸的HD 显示屏,并且后置双摄像头。在硬...
日期:01-31
落实“大力发展网络文艺”方针,严打网文盗版乱象_开展网络文学专项整治行动方案
  两会期间,全国政协委员、中国作协网络文学委员会主任陈崎嵘准备了《关于希望主管部门关注解决当下网络文学发展中几个重要问题的建议》,呼吁有关各方联合起来,严厉打击盗...
日期:07-14
董宇辉腊八节给员工放假1天 鼓励节日多与家人、朋友相聚_腊八节有加班费吗
1月18日,与辉同行公众号宣布将停播一天,原因是腊八节的到来。这一决定引发了广大粉丝的关注和热议。radeonrx6000m系列显卡正式发布在昨日的直播中,董宇辉亲自解释了停播的原因...
日期:01-18
掌上灵通代理宋哲念辞职 Peck Joo接任CEO和CFO
  比特网(ChinaByte)1月14日消息 据外电消息报道,掌上灵通昨日宣布,由于该公司代理首席执行官和首席财务官宋哲念即将去职,公司任命Peck Joo (PJ) Tan女士担任首席财务官,任...
日期:07-25
抖音成了朋友圈的句子「把抖音当成朋友圈,她一条视频涨粉100W+」
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:叫我娜姐,授权转载发布。抖音2月涨粉榜已出,我们先来看榜:与1月还出现了两个千万级账号的“盛况”有所不同,2月抖音内容生...
日期:03-19