您的位置:首页 > 互联网

模型摘要表格的作用「大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少」

发布时间:2023-09-20 23:10:52  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍,授权转载发布。

以后文本摘要总结任务,可以放心交给大模型了。

文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到。

模型摘要分析

随着大模型(LLM)的出现,传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问,LLM 在生成摘要方面效果到底如何?

为了回答这一问题,来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务(单条新闻、多条新闻、对话、源代码和跨语言摘要)上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现,由 LLM 生成的摘要明显受到人类评估者的青睐。

电动车费油吗

华为nova8屏幕刷新率多少

接着该研究在对过去3年发表在 ACL、EMNLP、NAACL 和 COLING 上的100篇与摘要方法相关的论文进行抽样和检查后,他们发现大约70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此,本文表示摘要(几乎)已死( Summarization is (Almost) Dead )。

尽管如此,研究者表示该领域仍然存在挑战,例如需要更高质量的参考数据集、改进评估方法等还需要解决。

论文地址:https://arxiv.org/pdf/2309.09558.pdf

方法及结果

该研究使用最新的数据来构建数据集,每个数据集由50个样本组成。

模型摘要表解释

例如在执行单条新闻、多条新闻和对话摘要任务时,本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务,其策略与 Zhu 等人提出的方法一致。关于代码摘要任务,本文采用 Bahrami 等人提出的方法。

数据集构建完成之后,接下来就是方法了。具体来说,针对单条新闻任务本文采用 BART 和 T5;多条新闻任务采用 Pegasus 和 BART;T5和 BART 用于对话任务;跨语言任务使用 MT5和 MBART ;源代码任务使用 Codet5。

实验中,该研究聘请人类评估员来比较不同摘要的整体质量。结果如图1所示,LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

2018年的手机处理器

这就提出了一个问题:为什么 LLM 能够胜过人类撰写的摘要,而传统上人们认为这些摘要是完美无缺的。此外,经过初步的观察表明,LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题,结果如表1所示,与 GPT-4生成的摘要相比,人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中,人工编写的摘要表现出明显较差的事实一致性。

人工撰写的摘要和 GPT-4生成摘要中出现幻觉的比例,如表2所示:

本文还发现人工编写的参考摘要存在这样一个问题,即缺乏流畅性。如图2(a) 所示,人工编写的参考摘要有时存在信息不完整的缺陷。并且在图2(b) 中,一些由人工编写的参考摘要会出现幻觉。

本文还发现微调模型生成的摘要往往具有固定且严格的长度,而 LLM 能够根据输入信息调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对主题的覆盖率较低,如图3所示,而 LLM 在生成摘要时能够捕获所有主题:

由图4可得,人类对大模型的偏好分数超过50%,表明人们对其摘要有强烈的偏好,并凸显了 LLM 在文本摘要方面的能力:


返回网站首页

本文评论
苏宁极物小Biu空调_苏宁极物小Biu空调315实时销量第一,格力美的紧随其后
  在家电第一渠道的苏宁易购平台,空调品类向来是公众关注的重点,据315焕新节空调悟空榜实时数据显示,截止到3月15日10:48,苏宁极物小Biu空调一骑红尘,在自营全渠道销量领先。...
日期:06-15
netflix 2017 订阅收入占比_美国:流媒体电视收视份额首超有线电视,Netflix份额居首
8月19日消息,根据尼尔森发布的月度数据显示,7月美国流媒体视频服务使用量占收视率的34.8%,高于有线电视的34.4%和无线广播电视的21.6%,首次占据最大电视收视份额。   7月份流...
日期:08-20
刚刚发布 网友就为理想L7吵翻了 因对电池厂商区别对待「智己L7用什么电池」
【CNMO新闻】在2022年12月份,理想汽车单月交付量突破了两万辆,成为了首个达成此成就的造车新势力企业。而纵观2022年全年,理想汽车的总计交付量突破了13万辆。如此成绩,堪称亮眼...
日期:02-13
华为折叠屏真机亮相 关晓彤代言「关晓彤代言的华为手机」
中关村在线消息:今天,华为终于预热了新机Pocket S,在华为公布的预热视频中,代言人关晓彤手持新机向大家作出展示。Pocket S延续了前代机型的经典设计,依旧采用竖向翻折设计,看上去...
日期:10-29
Soul创始人张璐携团队深挖元宇宙内涵 与Z世代共同探索社交新时代(soul张璐微信)
2021 年是元宇宙元年,一时之间“元宇宙”三个字席卷了互联网的各个角落。而国内对于元宇宙的比较初探索也可以追溯到 2016 年上线的社交应用:Soul,其创始人张璐与团队在与年轻...
日期:08-17
迎接在线音乐新蓝海 酷我音乐玩转车载黑科技(天蓝蓝酷我音乐)
  在前沿技术应用落地的发展条件下,中国音乐行业数字化水平不断提升。受新冠疫情影响,云演艺、家庭音乐等在线音乐新业态迎来发展机遇,但由于技术应用与业态未能协调发展引...
日期:07-16
本地生活大洗牌,抖音成最大赢家_抖音平台现状
声明:本文来自于微信公众号电商报Pro(ID:kandianshang),作者:老电,授权转载发布。抖音本地生活,已给美团带来实质性威胁。今年国庆,抖音短视频颠覆本地生活七天国庆假期一晃而过,重新...
日期:10-10
HR必读!人事管理系统选型的关键要点
如eHR系统、人力资源管理系统、人事管理系统、HR系统、HCM、DHR等等,同属于人力资源领域的管理工具,名称不同,侧重点不同,近些年由于企业的重视,发展极为火爆!目前国内eHR系统可分...
日期:08-16
获史玉柱注资 2345网址导航狂投千万广告
  近日,细心市民不难发现有数条线路的公交车“换上新装”,以绿色主打的2345网址导航和好压压缩软件的“装束”着实让人眼前一亮。     这次换新装的共有7条线路19台公...
日期:07-25
马斯克将生产手机?本人正面回应_马斯克进军手机市场
凤凰网科技讯 北京时间11月26日消息,播客Liz Wheeler秀的主持人Liz_Wheeler发布推文称,如果苹果和谷歌从他们的应用商店下架Twitter,马斯克应该生产自己的智能手机。马斯克留言...
日期:11-28
传腾讯新闻前负责人王诗沐将加入百度,王诗沐表态否认_王诗沐 腾讯新闻
8月16日消息,据媒体报道,腾讯新闻前负责人、知名产品经理王诗沐已经离职,将加入百度担任百度AI产品总经理一职。疫情大数据的负面影响特斯拉汽车界的苹果对此消息,王诗沐本人向...
日期:08-20
马斯克打造双总部策略:特斯拉将在加州设全球工程总部「特斯拉ceo马斯克获110亿」
魅族16th跑分四十多万凤凰网科技讯 北京时间2月23日消息,特斯拉公司CEO埃隆马斯克(Elon Musk)和美国加州州长加文纽森(Gavin Newsom)周三宣布,特斯拉将把其全球工程总部设在加...
日期:02-25
专家:肥胖人群的肥胖程度越来越高「肥胖人群寿命会缩短吗」
7月29日消息,北京协和医院营养科陈伟教授在接受采访时表示,现在胖人的肥胖程度越来越高,原来BMI 28以上的人比较多,现在BMI 30以上要占明显多数。从健康的角度来说,肥胖影响的不...
日期:07-30
宝马卖保险,到底为了啥?_为什么宝马车险贵
  在保险行业“去中介化”的呼声中,近年来有上千家保险中介机构被注销。但在这种情况下,依然有新玩家入场。日前,“宝马也要卖保险”的消息一出,瞬间引起行业关注。其实此前,包...
日期:09-30
中国电信天翼黑莓产品是中国电信与什么公司_中国电信18省市推天翼黑莓 在北京上市BIS套餐
新浪科技讯 5月20日消息,在中国联通引入黑莓服务的同时,中国电信宣布,其天翼黑莓中小企业解决方案首批在18个省市推出,同时,中国电信北京公司(以下简称北京电信)宣布正式推出黑...
日期:07-28
天猫开宝箱「淘宝天猫开启“宝藏人气店铺”内测 计划邀请5万商家参与」
6月9日 消息:千牛头条官方账号透露,淘宝天猫4月底开启“宝藏人气店铺”计划的内测,鼓励商家加大在私域的投入,让不断为消费者提供更好消费场景的商家,得到更多的支持回报。官方...
日期:06-09
张伟丽同款 荣耀X40 GT配置进一步公开「荣耀x4笔记本」
中关村在线消息:10月12日早,荣耀手机官方微博继续宣布了新机X40 GT的更多信息:其正面采用了一块6.81英寸的144Hz电竞级灵敏触控屏,支持480Hz报点率、16倍精准触控,为性能体验负责...
日期:10-12
滴滴上线自动驾驶服务 或凭借优势成产业赢家「做了七年,滴滴自动驾驶走到商业化前夜」
2025 年:「您的滴滴自动驾驶车已经到达」。作者 | 宛辰编辑| 郑玄蛰伏两年,滴滴首次发声,就带来了一套自动驾驶「全家桶」炸场。4 月 13 日,滴滴自动驾驶开放日上,一口气倒出多个...
日期:04-16
TextBase:简易且更懂人话的AI聊天机器人框架
9月5日 消息:最近,在 GitHub 上出现了一款名为 “TextBase” 的产品,这引起了用户的广泛关注。TextBase 是一款简单的框架,用于构建 AI 聊天机器人,它可以帮助开发人员快速搭建...
日期:09-05
可利用太阳能给车充电 特斯拉推出“大型充电宝”_特斯拉太阳能充电站
7月24日消息,今年3月,有媒体报道Tesla App中的编码揭示了一项新功能,让非特斯拉车主也能成为充电会员,还显示了更多关于充电速度和容量的细节。本次应用升级的最大更新是其"在阳...
日期:09-20