您的位置:首页 > 互联网

GPT-4完成正确率仅6%,北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

发布时间:2023-11-08 12:18:59  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,,授权转载发布。

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白,研究人员引入了PowerPoint任务完成(PPTC)基准测试,以评估LLM创建和编辑PPT文档的能力。

最近对大型语言模型(例如ChatGPT和GPT-4)进行的评估工作主要侧重于在基本自然语言任务上的能力,以及模型生成用于解决单句用户指令的API的工具使用能力,却忽略了在理解复杂多模态环境中使用API完成用户指令的难题。

此外,现有评估方法主要集中在比较生成的API与标签API序列,但在存在多个/无限正确解决方案的复杂情况下,这种方法也变得不再适用。

为了解决这个挑战,来自北大和微软亚洲研究院的研究人员们提出了测试大模型在多轮,多模态环境下完成PPT任务的评估数据集PPTC(PowerPoint Task Completion)。

论文地址:https://arxiv.org/abs/2311.01767

开源项目:https://github.com/gydpku/PPTC

如图1(a)所示,为了帮助用户完成对PPT文档的创建和编辑,研究人员采取多轮人机对话的形式来构建数据集。

图1:(a)模拟了人类与语言模型之间的多轮对话场景,以评估语言模型在PPT任务完成性能方面的表现。(b)对话单元的轮次数量分布。

每轮开始于用户的指令,大模型需要生成对应的API序列作为解决方法,执行并返回生成的PPT文档给用户。

数据集中一共有279个像这样的多轮对话单元,如图1(b)所示,大部分单元由3到10对话轮次组成。

更进一步,如图2(a)所示,数据集中包含各种难度的用户指令(由所需API数量决定),如数百个涉及到统计图表、表格、图像、空间位置相关多模态操作的指令。

图2:(a)指令所需最少API数量分布。(b)涉及到统计图表,表格,图片和位置操作的用户指令数量。

生成和执行API序列

为了完成每轮用户的指令,研究人员主要考虑:

1. 当前轮次的用户指令

魔兽世界副本地图怎么显示

2. 之前轮次的用户指令(对话历史)

3. PPT文档(环境信息)

4. 可使用的API列表作为大模型输入,prompt大模型生成对应的API序列作为解决方案。

图3:一个会话单元中语言模型如何完成一个轮次。(A)用当前的指令、之前的指令(对话历史)、PPT文件内容以及API参考文件作为输入prompt大模型。(B)然后,语言模型生成API序列并执行它,以获取预测的PPT文件。(C)评估预测文件中的属性和位置关系

为了方便大模型处理信息,研究人员提供一个PPT文档读取函数来将多模态文档转化为文字形式的文档内容,以及一个API执行函数来自动执行大模型生成的API序列,从而生成对应的预测PPT文档。

评估大模型生成的PPT文档

本文提出PPTX-Match评估系统来评估大模型生成的文档是否正确。

如图3所示,它使用PPTX库来抽取生成的文档中所有的元素,并逐一验证元素间的空间位置关系是否正确,并验证元素的属性内容是否和标签文档的对应内容匹配。

本文的评测系统只评测最终生成的PPT文档,因此允许各种API序列来完成用户指令。

基于这个系统,本文的评测指标分别包括只考虑当前轮次的轮次层面表现和考虑整个单元的单元层面表现。

实验结果

本文在3个闭源大模型和6个开源大模型上测试PPTC数据集。进一步的,本文测试计划算法(零样本思维链(Zero-shot CoT)和思维树(ToT)算法)以及PPT内容和API选择算法是否能进一步提升GPT-4模型在PPTC上的表现。

从表1和表2展现出的结果中,可以得出以下结论:

(1)GPT-4是9个大模型中表现最强的模型,在创建新PPT文档任务中它甚至能实现75%的轮次层面正确率。

(二)基于开源大模型(LLaMa-2)的进一步代码预训练(code-LLaMa)和对齐能够进一步提升模型轮次层面表现

表1:9个大语言模型的结果。TD-003是指Text-Davinci-003模型

(三)计划算法和选择算法能够进一步提升GPT-42到5个百分点的轮次层面正确率。然而,本文发现,尽管思维树相对零样本思维链花了超过数倍的推断成本,它的表现却并没有明显进一步的提升。

表2:GPT-4和基于GPT-4模型的算法的结果。'CoT'和'ToT'分别是思维链和思维树算法

三个PPTC上的主要挑战

进一步的,本文分析得出大模型在PPTC上遇到的三个主要的挑战:

1. 错误累计导致大模型单元层面表现糟糕

尽管诸如GPT-4这样的大模型在轮次层面表现较好,但当本文测试大模型在包含多个轮次的单元层次表现时,大模型表现普遍糟糕。

如表1所示,在创建新文档任务中,GPT-4只正确完成了不到百分之23的多轮次单元。

2. 大模型处理长PPT模版的能力欠佳

在PPT文档编辑任务中,大模型需要基于给予的长PPT模板完成用户指令。

图4: 创建新的PPT文件任务(任务1)和编辑PPT模板任务(任务2)的分析结果。在子图(a)中,本图展示了涉及图表、表格、图片、位置和纯文本的指令的平均基于轮次的准确度。在子图(b)中,本图展示了GPT-4的四种常见错误的比例。

然而,如表1所示,即使是GPT-4,也只实现了百分之38的轮次正确率,只完成了6%的多轮次单元。如图4(b)所示,对文档的误解成为编辑任务的主要错误原因。

3. 多模态指令提高了任务难度

如图4(a)所示,大模型在处理图表,表格,图像,空间位置相关的指令上的表现远不如处理只涉及纯文本操作的指令表现,特别是涉及到移动空间位置的指令。

如图4(b)所示,糟糕的空间位置感知成为创建新文档任务的主要错误原因。

总结

1. 本文提出了PowerPoint任务完成评估测试(PPTC),用于衡量在 PowerPoint 官方软件中的语言模型的任务完成性能。这一基准测试包含了279个多轮会话单元,涵盖了复杂的多模式环境中的数百个多模式指令。

2. 本文提出了PPTX-Match评估系统,用于自动测量语言模型在PPTC中的性能。本文测试了3个闭源语言模型和6个开源语言模型,发现GPT-4是所有语言模型中性能最强的。

3. 本文进一步发现了三个关键的错误因素:会话中的错误累积、长的PPT模板处理和多模态感知。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战。

参考资料:

https://arxiv.org/abs/2311.01767


返回网站首页

本文评论
荣耀magic2和什么型号手机屏一样「荣耀Magic Vs2配备7.92英寸大屏:比iPhone 15 Pro更护眼」
快科技10月12日消息,荣耀Magic Vs2亮相,该机拥有两块屏幕,外屏尺寸6.43英寸,采用20:9比例,分辨率2376x1060;内屏是7.92英寸,采用9.78:9比例,分辨率2344x2156。不仅如此,荣耀Magic Vs2...
日期:10-13
特斯拉新电池4680量产「特斯拉4680电池将于2023年第一季度在柏林超级工厂生产」
IT之家 9 月 14 日消息,2020 年 9 月 23 日,特斯拉在电池日活动上正式发布了 4680 电池,并计划在今年正式投产。特斯拉表示,4680 电池的单体能量提高了 5 倍,整车续航里程可增加...
日期:09-18
红米note2013121「1399元起!Redmi Note 13 Pro发布」
今晚,小米在 Redmi Note 13 系列手机的新品发布会上正式发布了 Redmi Note 13 Pro。这款手机是继 Redmi Note 13 Pro 后推出的另一款高端机型。Redmi Note 13 Pro 搭载了一...
日期:09-22
软银买了阿里巴巴多少股份用了多少钱「软银将再次出售72亿美元阿里巴巴股票 持股降至3.8%」
4月13日消息,据外媒报道,软银将出售其所持阿里巴巴大部分股份,后者股价在盘后交易中下跌逾3%。特斯拉fds实际感受ai服务器有什么用文件中显示,软银已通过预付远期合约的方式出售...
日期:04-13
“五笔字型”发明人王永民陷入卖房官司_王永明五笔字型专利
  刘女士购买王永民名下的一套房产,签约5个月后仍没过户。她将王永民告上法庭。王永民辩称中介公司恶意欺骗且中介人员无资质,要求撤销合同。   近日,石景山法院判决,王永...
日期:07-25
特斯拉美国推出新款Model Y 并下调现有Model Y车型价格「美国特斯拉model y再涨价500美元」
(原标题:特斯拉美国推出新款Model Y 并下调现有Model Y车型价格) 财联社4月7日电,特斯拉正式在美国推出了一款价格较低的新型Mod...
日期:04-07
男孩名字含“坤”被嘲笑抑郁自残 被起绰号“鸡哥”:网友吐槽太过分
3月23日,在四川成都,一名男孩因名字带坤”被起绰号鸡哥”。iPhone黄牛上海新能源车电费同学在课本上以及课桌上都写着鸡你太美”这些调侃的词语,产生抑郁厌学,自伤自残情绪。天...
日期:03-25
excel2010平滑滚动_微软宣布:Office Excel 桌面应用将支持平滑滚动,更流畅
  10 月 9 日消息 据 mspoweruser 报道,微软宣布,他们将在不久的将来为其 Excel 桌面应用带来对更平滑的滚动支持。   目前,Excel 不能平滑滚动,主要是因为 Excel 在滚动...
日期:07-17
华为战略研究院院长周红:AI还面临三个重要挑战_华为战略研究院在哪
4月19日消息,今天华为第二十届分析师大会召开。华为战略研究院院长周红分享了人类面向智能世界需要解决的两大核心问题,未来通信和未来计算。在谈到AI话题时,周红认为,AI还面临...
日期:04-20
耐心不足3秒的短视频时代,1亿人在播客里寻回松弛感「短视频内容运营强调前几秒」
声明:本文来自于微信公众号 吴晓波频道(ID:wuxiaobopd),作者:巴九灵,授权转载发布。刚刚过去的十一假期,开车的旅途中,或宅家的时刻,你听播客了吗?《2021年中国网络音频产业研究报...
日期:10-11
联发科2022年芯片「DigiTimes:联发科将于2023年量产CoWoS封装的HPC芯片 用于元宇宙等领域」
9月20日消息:据DigiTimes报道,据供应链消息人士称,联发科将在2023年采用先进工艺节点和CoWoS封装技术,量产新高性能运算芯片,该芯片将由台积电代工,用于元宇宙、AIoT等领域。新苹...
日期:09-21
北京联想电脑一体机_北京联想电脑一体机专卖店
是一种采用了最新科技的全新电脑产品,不仅仅能够支持日常办公使用,还能够提供出色的游戏和娱乐体验。这种电脑一体机集成了一台电脑的所有组件,包括主板、处理器、内存、硬盘、...
日期:05-30
小天才耳机E2S正式上市,为孩子的高效学习助力
10 月 24 日,小天才正式推出行业首 款支持可拆卸麦克风的挂耳式耳返学习耳机E2S。据了解,具有耳返功能的耳机,是学生用户群体必备的背书神器,被广泛应用到练习英语口语、背诵课...
日期:10-24
《2021中国新经济企业500强发展报告》发布|新经济|发展|赛道(中国500强企业 2021)
来源:中国企业评价协会   2022年7月23日,在以“双链融合与科技创新”为主题的2021中国新经济企业500强发布会上,中国企业评价协会发布了《2021中国新经济企业500强发展报告》...
日期:08-01
11个月来首次失利,spacex回收六手猎鹰9号火箭失败「SpaceX创纪录17手猎鹰9号火箭两连发!星链卫星已发射5178颗」
SpaceX的猎鹰9号火箭复用记录还在不断刷新,已经达到了17次复用,而且连续两枚达成。特斯拉 1000万辆首先是北京时间9月20日11点38分,编号B1058.17的猎鹰9火箭发射了22颗星链V2 m...
日期:09-29
头条里的悟空问答怎么参与「今日头条:“悟空问答”APP再次上线消息不实_」
2月2日消息,今日有媒体消息称,字节跳动旗下两年前关停运营的“悟空问答”APP,将择机再次上线,并会启用全新的产品LOGO。spacex股票市值对此,今日头条相关负责人表示,相关消息不实...
日期:02-02
iqoo neo5天玑1200「天玑9000+性价比 产品经理泄露iQOO Neo7配置」
国庆之后,又有新一轮手机要发布上市了,其中vivo旗下还有iQOO Neo7系列,现在开始预热了,产品经理已经疯狂暗示该系列的处理器会是天玑9000+。三星折叠屏销量vivo公司iQOO Neo系列...
日期:10-11
飞猪:今年国庆周边游订单量较春节增超80% 云旅游成热门选项_飞猪旅行网市场规模
10月8日 消息:近日,飞猪发布国庆旅游消费观察报告。数据显示,今年国庆周边游订单量较春节增超80%,其中,云旅游成为本地旅游消费的热门选项之一。旅游方式上,私密安全且时间自由的...
日期:10-14
扎克伯格:苹果太封闭,是Meta在元宇宙领域主要对手「扎克伯格:元宇宙,就是下一张互联网」
  讯 北京时间10月12日早间消息,据报道,当地时间周二,Meta Platforms CEO马克·扎克伯格(Mark Zuckerberg)暗示,他将苹果视为Meta在元宇宙领域的主要竞争对手。  在发表这番评...
日期:10-12
新浪微博域名备案_新浪微博用新域名启动分拆上市计划
  新浪微博今天将正式启用新域名weibo.com,同时将启动新版Logo标识。为确保现有用户的正常使用,新浪微博进入双域名并存阶段。在此期间,用户使用新域名weibo.com或者旧域名t...
日期:07-27