您的位置:首页 > 互联网

与李白赏图赋诗,同猴哥直面天命,人大高瓴提出MMRole多模态角色扮演

发布时间:2024-09-12 15:08:24  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:机器之心,授权转载发布。

随着大语言模型的飞速发展,角色扮演智能体(RPAs)正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐,还在教育、社会模拟等领域展现出重要的应用潜力。然而,当前市面上的大多数角色扮演智能体都只会文字聊天,其理解能力仅限于单一的文本模态,远远无法与具备多模态感知能力的人类相比。这让我们不禁思考:我们真的只能与这些单调的智能体对话吗?显然,答案是否定的!

近日,中国人民大学高瓴人工智能学院的研究团队率先提出了多模态角色扮演智能体(MRPAs)的概念。这类智能体不仅能够扮演特定角色,还能够围绕图像进行多模态对话。与此同时,团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的综合框架。

  • 代码仓库:https://github.com/YanqiDai/MMRole

  • 论文地址:https://arxiv.org/abs/2408.04203

图1:MMRole 框架概述。

如图1所示,该框架包括一个大规模、高质量的多模态角色扮演数据集 MMRole-Data,并配备了一套健全的评测方法 MMRole-Eval,涵盖三个维度下的八项指标。在此基础上,团队开发了首个专门的多模态角色扮演智能体 ——MMRole-Agent,在多模态信息理解和角色扮演能力上明显优于同等参数规模的通用对话模型。

MMRole 打破了传统角色扮演智能体仅限于单一模态的局限,让智能体能够在图像和文字之间自由切换,带来更为沉浸的对话体验,进一步扩展了角色扮演智能体的应用场景与价值。

MMRole-Data 数据集

如图1(a)所示,MMRole-Data 是一个大规模、高质量的多模态角色扮演数据集,包含85个角色及其身份信息、11K 张图像,以及14K 段围绕图像展开的单轮或多轮对话,共生成了85K 条训练样本和294条测试样本。在数据构建过程中,团队借助了 GPT-4V 进行辅助生成,并执行了严格的人工质量审查,为角色扮演智能体的训练和性能评测奠定了坚实基础。

图2:MMRole-Data 中构建的所有角色。

如图2所示,MMRole-Data 涵盖了三种角色类型:虚构角色、历史和公众人物,以及假想现实角色。前两类角色的身份信息由 GPT-4通过总结 Wikipedia 或百度百科的人物介绍生成,而第三类角色的身份信息则通过 GPT-4采用两阶段生成方式,在确保多样性的基础上随机生成。前两类角色在之前的研究中已有较多探讨,团队特别引入了第三类角色,旨在提升和评测 MRPAs 在并不广为人知的角色上的性能,使其在多样化角色扮演场景中展现出更强的灵活性与泛化性。

进一步地,MMRole-Data 引入来自 MS-COCO 数据集的通用图像,确保了对广泛视觉概念的覆盖。同时,团队还人工收集和标注了剧照等与角色密切相关的图像,以更有效地唤起角色的个人经历和情感。

特斯拉4680电池最新进展

图3:MMRole-Data 中三种对话场景的示例。

最后,如图3所示,团队利用 GPT-4V 生成了三类以图像为中心的对话场景:评论性交互、用户 - 角色对话,以及角色间对话。这些对话经过多轮规则过滤和严格的人工质量审查,确保了对话内容的准确性和角色一致性。

图4:MMRole-Data 中文示例。

特别地,如图4所示,团队对数据集的中文部分进行了精细打磨,成功再现了李白、孙悟空等经典人物的形象。通过深入挖掘这些角色的独特个性和背景故事,MRPAs 能够在多模态对话中更具表现力和沉浸感,为用户带来更加真实的互动体验。

MMRole-Eval 评测方法

如图1(b)所示,MMRole-Eval 是一套稳健而全面的多模态角色扮演智能体评测方法,涵盖三个维度下的八项评测指标,确保对智能体的多方面能力进行深入评估。具体的评测指标包括:

基础对话技巧

  • 指令遵循度(Instruction Adherence, IA)

  • 流畅度(Fluency, Flu)

  • 连贯性(Coherency, Coh)

多模态理解能力

  • 图文相关性(Image-Text Relevance, ITR)

  • 响应准确度(Response Accuracy, RA)

角色扮演质量

库克说中国

  • 性格一致性(Personality Consistency, PC)

  • 知识一致性(Knowledge Consistency, KC)

  • 语气一致性(Tone Consistency, TC)

盆景花盆批发市场

为了定量评估 MRPAs 在各项指标上的性能,团队开发了一个专门的奖励模型。该模型首先对待评估的 MRPA 与构建的标准答案之间的相对性能进行简要的定性评价,随后为其生成一个定量的分数对,MRPA 的最终得分为该分数对中两个分数的比值。为了开发这一奖励模型,团队利用 GPT-4在所有测试样本上对多个 MRPAs 进行评测,生成了大量评测轨迹,这些轨迹随后被转换为奖励模型的训练和验证数据。

评测结果与分析

表1:MMRole-Eval 评测结果。In-Test 表示在训练集中出现过的角色上的测试,而 Out-Test 表示在训练集中未见过的角色上的测试。

如表1所示,团队开发的首个专门的多模态角色扮演智能体 MMRole-Agent(9B)在各项指标上表现出了卓越的性能,整体性能远超同等参数规模(<10B)的通用对话模型,甚至优于部分参数量更大(10B-100B)的模型。此外, MMRole-Agent 在未见过的角色上同样展现出了强大的泛化能力。

图5:MMRole-Eval 评测结果的可视化。

十三香iphone12

此外,如图5所示,团队将评测结果进行了可视化分析,发现所有 MRPAs 在流畅度指标上均获得了较高分数,表明生成流畅内容对于现有的大模型而言相对容易。然而,在其他评测指标上,尤其是性格一致性和语气一致性指标,不同的 MRPAs 之间存在显著差异。这说明,在多模态角色扮演智能体的开发中,多模态理解能力和角色扮演质量是更具挑战性的方面,需要在未来的研究和优化中予以特别关注。


返回网站首页

本文评论
高中生连吃4种感冒药住进重症监护室 医生:切勿过量和混搭_大学生感冒药吃多了过了三天死了
11月23日消息,是药三分毒”,在食用药物治疗疾病时,一定要谨遵医嘱,不能乱吃,更不能自行搭配,否则很有可能造成严重后果。据央视新闻报道,近期由于呼吸道疾病多发,不少人会自行买药吃...
日期:11-23
旗舰技术+行业首创红外测温,荣耀Play4系列火热预定中
  6月3日,5G酷玩新机荣耀Play4系列正式面世,凭借业内首创的红外测温功能、强悍的性能配置、实惠亲民的售价,一经推出便赢得广大年轻消费者青睐,堪称手机行业的5G普及者。...
日期:07-14
iPhone 15 Pro外观设计曝光,去掉所有物理按键
中关村在线消息:iPhone一直是数码届的顶流,虽然iPhone15在9月份发布,但是iPhone15已经有了非常多的爆料。笔者为大家汇总了一些比较靠谱的爆料信息,看看未来的iPhone15是否依旧...
日期:01-22
云行业故障事件频现,多云战略势在必行_为什么云变化多端
  近日,受施工方挖断光纤影响, 亚马逊中国云服务(AWS)突发大规模故障,相关用户无法链接 Internet。受此次事件的影响,三星服务器全线崩溃。   这不是AWS第一次发生大规模故...
日期:06-11
TextBase:简易且更懂人话的AI聊天机器人框架
9月5日 消息:最近,在 GitHub 上出现了一款名为 “TextBase” 的产品,这引起了用户的广泛关注。TextBase 是一款简单的框架,用于构建 AI 聊天机器人,它可以帮助开发人员快速搭建...
日期:09-05
打车去拉萨订单暴涨?滴滴回应订单呼叫明显增加_拉萨滴滴打车起步价多少钱
最近在一个短视频平台上出现不少旅游相关话题,其中就有“青春不设价,直接坐车去拉萨……”,有不少网友跟着潮流晒出了从全国各地尝试用滴滴网约车去西藏拉萨的视频,车费从几千元...
日期:04-13
字节跳动称没有出售TikTok计划_字节跳动拟允许tiktok完全由美投资者拥有?中方回应
4月26日 消息:近期,市场上出现了有关字节跳动有意出售TikTok的传闻,甚至传闻称沃尔玛可能成为潜在买家。对此,字节跳动迅速做出回应,通过官方声明坚决否认这些报道,并明确表示没...
日期:04-26
从用户实际体验出发,鲁大师2023评测沟通会发布全新久用流畅测试
  鲁大师一直在探索,什么样的评测才能给用户带来更直观的体验感受。一加7pro和ace  过去的十几年中,鲁大师打造了多个备受好评的评测项目,这些项目也会跟随用户在不同时代...
日期:05-10
“学霸”扎堆了!四川绵阳这个班今年高考平均分670分,8人锁定清华、北大
“8人锁定清北,高考平均分670分!”6月26日早上,四川绵阳东辰学校高2020级竞赛班家委会发布一条报喜信息,引来众多网友惊叹。该班班主任冯洁老师向红星新闻记者介绍,该班共有学生2...
日期:06-27
红杉中国又放了一个大招(红杉中国上市了吗)
  文/张楠   红杉中国,又放大招了。   今日,红杉中国下场做起了培训,宣布推出“YUÈ——红杉中国创业加速器”,定位为“创业者的第一课”,目标是提高早期创业成功率,踏实基...
日期:08-17
一加Ace 2 Pro支持超级n28/n8 5G信号:荒郊户外也有5G连接「一加nord ce 5g」
快科技8月13日消息,一加宣布Ace 2 Pro支持超级n28 5G、n8 5G信号。据悉,超级n28 5G、n8 5G是运营商大力推行的5G频段,去年移动率先完成n28基站布局,今年联通也逐步完成n8基站布...
日期:08-13
极客时间5G课程上线,行业名师深入解码战略技术
  5G正在成为各个国家技术角逐的重要赛道,甚至还因此引发了大国之间的新一轮技术竞备,从目前的趋势来看,中国5G技术具有明显优势,该技术也正在向越来越多的商业领域进行渗透,...
日期:02-16
超2023全年数据_拼多多Temu今年上半年GMV达200亿美元_拼多多一年的gmv
7月24日消息,据媒体报道,拼多多旗下的跨境电商黑马Temu,在今年上半年取得了令人瞩目的成绩,其GMV(商品交易总额)已飙升至200亿美元大关。了解小红书国美秒杀活动其中仅第二季度便...
日期:07-24
微信公众平台新规:公号不可提供与数字藏品二级交易相关服务或内容
6月20日消息,据悉,近日,微信对《微信公众平台运营规范》进行了一次更新,新增行为规范条款涉及虚拟货币与数字藏品。《微信公众平台运营规范》新增了“虚拟货币及数字藏品交易行...
日期:08-07
德克萨斯州大学将建立学术界最大之一的生成式AI中心_德克萨斯州的著名大学
1月30日 消息:德克萨斯州奥斯汀 - 德克萨斯大学奥斯汀分校(UT)正在建立一个学术界最强大的人工智能中心,以引领研究并为广泛的合作伙伴提供世界一流的人工智能基础设施。进气翻...
日期:01-30
中科院发布全新量子计算软件,国产量子计算软硬件结合迈出重要一步
  据新华社,中科院软件所团队日前发布全新量子计算编程软件――isQ-Core,并成功部署至世界领先的超导量子硬件平台,标志着国产量子计算软硬件结合迈出重要一步。   据介绍...
日期:07-17
莫言称每次刷完短视频都会批评自己 希望大家回归阅读_莫言讲话视频
在这个世界读书日,莫言向广大读者发出了一则诚挚的呼吁。他希望大家能够暂时放下心中的焦虑,减少刷短视频的时间,转而投入到阅读中去。莫言坦言:“尽管我自己也会偶尔刷短视频,但...
日期:04-23
Tubi推出基于ChatGPT的影视推荐聊天机器人Rabbit AI
要点:1、Rabbit AI可以根据用户喜好推荐内容,还可以就影视作品进行交流讨论。2、Tubi希望通过Rabbit AI提升用户体验,并为内容创作者提供更多见解。9月27日 消息:在线影视平台...
日期:09-27
西北工业大学 网络安全「西北工业大学声明:坚决反对以任何形式实施网络攻击」
  2022年4月12日,我校就邮件系统遭受钓鱼邮件攻击的情况向公安机关报案。近期,公安机关向我校通报了案件侦办的相关情况。在此,我校公开声明:我们坚决反对以任何形式实施网络...
日期:09-07
永劫光遇等40+鸿蒙原生游戏首次亮相CJ 2024 技术赋能精品游戏体验
近日,第21届中国国际数码互动娱乐展览会(ChinaJoy)在上海举行。华为游戏中心以“非凡体验,游戏新生”为主题,联合30多家合作伙伴共同打造鸿蒙原生游戏展区,《永劫无间手游》《光·...
日期:08-01