您的位置:首页 > 互联网

GPT-4完成正确率仅6%!北大等提出首个多轮、多模态PPT任务完成基准PPTC

发布时间:2023-11-07 17:00:18  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

iOS15.0测试版

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白,研究人员引入了PowerPoint任务完成(PPTC)基准测试,以评估LLM创建和编辑PPT文档的能力。

最近对大型语言模型(例如ChatGPT和GPT-4)进行的评估工作主要侧重于在基本自然语言任务上的能力,以及模型生成用于解决单句用户指令的API的工具使用能力,却忽略了在理解复杂多模态环境中使用API完成用户指令的难题。

此外,现有评估方法主要集中在比较生成的API与标签API序列,但在存在多个/无限正确解决方案的复杂情况下,这种方法也变得不再适用。

为了解决这个挑战,来自北大和微软亚洲研究院的研究人员们提出了测试大模型在多轮,多模态环境下完成PPT任务的评估数据集PPTC(PowerPoint Task Completion)。

论文地址:https://arxiv.org/abs/2311.01767

开源项目:https://github.com/gydpku/PPTC

如图1(a)所示,为了帮助用户完成对PPT文档的创建和编辑,研究人员采取多轮人机对话的形式来构建数据集。

院线电影网络版权费

图1:(a)模拟了人类与语言模型之间的多轮对话场景,以评估语言模型在PPT任务完成性能方面的表现。(b)对话单元的轮次数量分布。

每轮开始于用户的指令,大模型需要生成对应的API序列作为解决方法,执行并返回生成的PPT文档给用户。

数据集中一共有279个像这样的多轮对话单元,如图1(b)所示,大部分单元由3到10对话轮次组成。

更进一步,如图2(a)所示,数据集中包含各种难度的用户指令(由所需API数量决定),如数百个涉及到统计图表、表格、图像、空间位置相关多模态操作的指令。

图2:(a)指令所需最少API数量分布。(b)涉及到统计图表,表格,图片和位置操作的用户指令数量。

生成和执行API序列

为了完成每轮用户的指令,研究人员主要考虑:

1. 当前轮次的用户指令

2. 之前轮次的用户指令(对话历史)

3. PPT文档(环境信息)

4. 可使用的API列表作为大模型输入,prompt大模型生成对应的API序列作为解决方案。

图3:一个会话单元中语言模型如何完成一个轮次。(A)用当前的指令、之前的指令(对话历史)、PPT文件内容以及API参考文件作为输入prompt大模型。(B)然后,语言模型生成API序列并执行它,以获取预测的PPT文件。(C)评估预测文件中的属性和位置关系

为了方便大模型处理信息,研究人员提供一个PPT文档读取函数来将多模态文档转化为文字形式的文档内容,以及一个API执行函数来自动执行大模型生成的API序列,从而生成对应的预测PPT文档。

一加11 Pro亮点

评估大模型生成的PPT文档

本文提出PPTX-Match评估系统来评估大模型生成的文档是否正确。

2019中国金融科技公司排名

如图3所示,它使用PPTX库来抽取生成的文档中所有的元素,并逐一验证元素间的空间位置关系是否正确,并验证元素的属性内容是否和标签文档的对应内容匹配。

本文的评测系统只评测最终生成的PPT文档,因此允许各种API序列来完成用户指令。

基于这个系统,本文的评测指标分别包括只考虑当前轮次的轮次层面表现和考虑整个单元的单元层面表现。

实验结果

本文在3个闭源大模型和6个开源大模型上测试PPTC数据集。进一步的,本文测试计划算法(零样本思维链(Zero-shot CoT)和思维树(ToT)算法)以及PPT内容和API选择算法是否能进一步提升GPT-4模型在PPTC上的表现。

从表1和表2展现出的结果中,可以得出以下结论:

(1)GPT-4是9个大模型中表现最强的模型,在创建新PPT文档任务中它甚至能实现75%的轮次层面正确率。

(二)基于开源大模型(LLaMa-2)的进一步代码预训练(code-LLaMa)和对齐能够进一步提升模型轮次层面表现

表1:9个大语言模型的结果。TD-003是指Text-Davinci-003模型

(三)计划算法和选择算法能够进一步提升GPT-42到5个百分点的轮次层面正确率。然而,本文发现,尽管思维树相对零样本思维链花了超过数倍的推断成本,它的表现却并没有明显进一步的提升。

表2:GPT-4和基于GPT-4模型的算法的结果。'CoT'和'ToT'分别是思维链和思维树算法

三个PPTC上的主要挑战

进一步的,本文分析得出大模型在PPTC上遇到的三个主要的挑战:

1. 错误累计导致大模型单元层面表现糟糕

尽管诸如GPT-4这样的大模型在轮次层面表现较好,但当本文测试大模型在包含多个轮次的单元层次表现时,大模型表现普遍糟糕。

如表1所示,在创建新文档任务中,GPT-4只正确完成了不到百分之23的多轮次单元。

2. 大模型处理长PPT模版的能力欠佳

在PPT文档编辑任务中,大模型需要基于给予的长PPT模板完成用户指令。

图4: 创建新的PPT文件任务(任务1)和编辑PPT模板任务(任务2)的分析结果。在子图(a)中,本图展示了涉及图表、表格、图片、位置和纯文本的指令的平均基于轮次的准确度。在子图(b)中,本图展示了GPT-4的四种常见错误的比例。

然而,如表1所示,即使是GPT-4,也只实现了百分之38的轮次正确率,只完成了6%的多轮次单元。如图4(b)所示,对文档的误解成为编辑任务的主要错误原因。

3. 多模态指令提高了任务难度

如图4(a)所示,大模型在处理图表,表格,图像,空间位置相关的指令上的表现远不如处理只涉及纯文本操作的指令表现,特别是涉及到移动空间位置的指令。

如图4(b)所示,糟糕的空间位置感知成为创建新文档任务的主要错误原因。

总结

1. 本文提出了PowerPoint任务完成评估测试(PPTC),用于衡量在 PowerPoint 官方软件中的语言模型的任务完成性能。这一基准测试包含了279个多轮会话单元,涵盖了复杂的多模式环境中的数百个多模式指令。

2. 本文提出了PPTX-Match评估系统,用于自动测量语言模型在PPTC中的性能。本文测试了3个闭源语言模型和6个开源语言模型,发现GPT-4是所有语言模型中性能最强的。

3. 本文进一步发现了三个关键的错误因素:会话中的错误累积、长的PPT模板处理和多模态感知。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战。

参考资料:

https://arxiv.org/abs/2311.01767


返回网站首页

本文评论
蔚来公布首款自主研发芯片“杨戬” 将在十月投入生产
9月21日 消息:蔚来在上海举办的“NIO IN2023蔚来创新科技日”上公布 ,首款自主研发的芯片——激光雷达主控芯片“杨戬”将会在十月投入生产。“杨戬”芯片是蔚来智能硬件团队...
日期:09-21
沃尔玛与供应商之间的电子商务关系_互联网销售商与“网上沃尔玛” 开展竞争
  北京时间2月14日消息,据国外媒体报道,支付和推广平台TrialPay公司首席执行官亚历克斯·兰贝尔(Alex Rampell)在知名科技博客TechCrunch发表名为《再见,长尾》署名文章,举出了...
日期:07-26
Redmi新机国庆上架:顶配8+512G卖2099元_redmi128g多少钱
Redmi在今年的上半年,推出了面向1000多元入门市场的新系列“Redmi Note 11T Pro”,1699元起的价格就积攒了不少的口碑,其中拥有Note 11T Pro、Note 11T Pro+两款新机凭借不错的...
日期:10-05
美媒揭秘苹果AR/VR头盔原型机:电池组安装在用户腰部,去年在中国生产数千个
1月4日消息,苹果首款AR/VR头盔已成为该公司2023年最受期待的新产品,然而我们对其细节却依然知之甚少。美国科技媒体The Information披露了这款设备的大量新设计和功能,包括配置...
日期:01-04
微博营销首先得去商业化 炒作绝非长久之计
  由于拥有数量庞大的网民参与,且具备强大的互动性和类似病毒般的传播速度,自问世后不久,微博便受到了营销人员的关注。有人说,通过微博进行营销(即“微营销”)效果很好,去年...
日期:07-28
京东众筹项目发起人「曾孵化国内破亿众筹项目:京东众筹今日正式暂停运营」
9月,京麦商家中心曾发布公告,表示将在10月暂停运营京东众筹业务。今天,京东众筹业务正式暂停业务,已上线的项目还将继续进行众筹,且众筹成功后能够正常发货。虽然官方表示京东众...
日期:10-15
诺基亚智能手机什么时候上市的_消息称诺基亚电视最早将于12月上市
  11月16日消息 前几日诺基亚电视现身BIS认证网站,型号为“55CAUHDN”;近日据91mobiles报道,这款电视最早将于今年12月正式推出。   在小米,一加和摩托罗拉公司之后,诺基...
日期:10-12
特斯拉总裁马斯克人工智能「特斯拉前 AI 高级总监宣布回归马斯克创立的 OpenAI」
2月9日消息:特斯拉前AI高级总监Andrej Karpathy在推特上发文表示,自己将再次加入OpenAI。这是一家最初由特斯拉CEO马斯鹕共同创立的人工智能初创公司。Karpathy称,「我将再一...
日期:02-09
郭明錤:苹果iPhone 15系列需求预计将低于iPhone 14系列_ios15有哪些手机
  IT之家 8 月 3 日消息,苹果分析师郭明錤今天预测,iPhone 15 系列的需求将低于今年的 iPhone 14 系列。东芝复印机驱动安装uni还是ps  郭明錤表示,较低的需求可能会给苹果...
日期:08-03
高通确认:红魔 8S Pro使用和三星Galaxy S23系列骁龙8 Gen 2芯片
IT之家 8 月 5 日消息,根据国外科技媒体 XDA-Developers 报道,今年 7 月初发布的努比亚红魔 8S Pro 手机,使用了和三星 Galaxy S23 系列相同的高通骁龙 8 Gen 2 For Galaxy 芯...
日期:08-06
元宇宙cso「工信部:加快开展元宇宙标准的制修订工作」
通信世界网消息(CWW)自元宇宙概念提出以来,各国政府、产业界和学术界加快布局,在技术研究、产业推广、标准研制等领域开展了一系列工作。9月18日,工业和信息化部科技司公开征求对...
日期:09-19
梦天号实验舱发射时间「梦天实验舱完成发射前全区合练:已做好发射前准备」
据央视新闻消息,今天(10月29日)上午,在文昌航天发射场的测试发射大厅,工作人员组织了梦天实验舱发射前最后一次系统间全区合练。win11目前的版本各系统已完成了相关功能检查,准备...
日期:10-29
华为智慧屏系列全新上市「华为智慧屏新品将于 9 月 29 日 发布」
9 月 28 日讯:今日,华为官方宣布,华为智慧屏新品将于 9 月 29 日 19:00 发布。rtx3080 nvidia格力电器研发芯片美国阿波罗登月火箭...
日期:09-28
硅谷老总「一个时代的结束!硅谷知名女高管悉数离任」
2月25日消息,本周苏珊·沃西基(Susan Wojcicki)宣布辞去YouTube首席执行官一职,这意味着硅谷科技界一代知名女性高管均已经退居二线。专家认为,这只会进一步证明科技行业尚未实...
日期:02-25
17分钟充满100% 「一加Ace」-2 Pro首发新一代长寿版150W超级闪充
日前一加已经官宣,将于8月16日14:30召开新品发布会,届时将正式推出新旗舰——一加Ace 2 Pro,其最大的卖点就是将搭载高通骁龙第二代骁龙8处理器,官方曾表示,该机在硬件上毫无保留...
日期:09-10
三星 i8000_三星I8000如何连接蓝牙鼠标
三星i8000,是三星公司于2009年推出的一款高端智能手机,运行Windows Mobile 6.1操作系统。拥有高像素的摄像头、强大的硬件配置、宽大的屏幕以及多种有用的功能,受到了广大消费...
日期:05-30
大漠叔叔到底是干嘛的「大漠叔叔不会成为下一个“反诈老陈”」
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:潮关,授权转载发布。“暗号不变,江湖再见,南海见,这回真下海拍片。”9月27日,@海南警方 在抖音的一则评论中,发布@大漠叔叔(本...
日期:10-25
OpenAI上新啦!商业版ChatGPT单价骤减9成 推出语音转文字API_openai怎么使用
上线3个月后,ChatGPT正式迈出了大规模商业化的第一步。 财联社3月2日讯(编辑 史正丞)当地时间周三(3月1日),OpenAI宣布正式推出面向商业用户的ChatGPT和Whisper转文字模型API,并给...
日期:03-02
14年来第一次!天猫双11不公布交易额:稳中向好「2016年天猫双十一全天交易额」
第14届天猫双11活动正式落下帷幕,但最受关注的一环消失了:总交易额不再公布,这也是天猫双11活动自2009年诞生以来的第一次。天猫方面表示,今年双11稳中向好,交易规模与去年(5403...
日期:11-14
下周见!三星Galaxy发布会新品前瞻,折叠屏、平板、手表都有「三星新品发布会2020下半年」
近日,三星手机官方正式宣布,将于7月26日 19:00带来Galaxy全球新品发布会。现在随着新品发布时间的接近,相关的产品剧透正在更多的出现。据悉,这次活动中三星有望推出全新的折叠...
日期:07-24