您的位置:首页 > 互联网

DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

发布时间:2024-03-29 22:47:01  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:杜伟,授权转载发布。

DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗?

大模型的幻觉终于要终结了?

今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。

我们知道,大语言模型在响应开放式主题的 fact-seeking(事实寻求)提示时,通常会生成包含事实错误的内容。DeepMind 针对这一现象进行了一些探索性研究。

首先,为了对一个模型在开放域的长篇事实性进行基准测试,研究者使用 GPT-4生成 LongFact,它是一个包含38个主题、数千个问题的提示集。然后他们提出使用搜索增强事实评估器(Search-Augmented Factuality Evaluator, SAFE)来将 LLM 智能体用作长篇事实性的自动评估器。

对于 SAFE,它利用 LLM 将长篇响应分解为一组单独的事实,并使用多步推理过程来评估每个事实的准确性。这里多步推理过程包括将搜索查询发送到 Google 搜索并确定搜索结果是否支持某个事实 。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

GitHub 地址:https://github.com/google-deepmind/long-form-factuality

此外,研究者提出将 F1分数(F1@K)扩展为长篇事实性的聚合指标。他们平衡了响应中支持的事实的百分比(精度)和所提供事实相对于代表用户首选响应长度的超参数的百分比(召回率)。

实证结果表明,LLM 智能体可以实现超越人类的评级性能。在一组约16k 个单独的事实上,SAFE 在72% 的情况下与人类注释者一致,并且在100个分歧案例的随机子集上,SAFE 的赢率为76%。同时,SAFE 的成本比人类注释者便宜20倍以上。

研究者还使用 LongFact,对四个大模型系列(Gemini、GPT、Claude 和 PaLM-2)的13种流行的语言模型进行了基准测试,结果发现较大的语言模型通常可以实现更好的长篇事实性。

论文作者之一、谷歌研究科学家 Quoc V. Le 表示,这篇对长篇事实性进行评估和基准测试的新工作提出了一个新数据集、 一种新评估方法以及一种兼顾精度和召回率的聚合指标。同时所有数据和代码将开源以供未来工作使用。

方法概览

LONGFACT:使用 LLM 生成长篇事实性的多主题基准

首先来看使用 GPT-4生成的 LongFact 提示集,包含了2280个事实寻求提示,这些提示要求跨38个手动选择主题的长篇响应。研究者表示,LongFact 是第一个用于评估各个领域长篇事实性的提示集。

LongFact 包含两个任务:LongFact-Concepts 和 LongFact-Objects,根据问题是否询问概念或对象来区分。研究者为每个主题生成30个独特的提示,每个任务各有1140个提示。

SAFE:LLM 智能体作为事实性自动评分者

研究者提出了搜索增强事实评估器(SAFE),它的运行原理如下所示:

a)将长篇的响应拆分为单独的独立事实;

b)确定每个单独的事实是否与回答上下文中的提示相关;

c) 对于每个相关事实,在多步过程中迭代地发出 Google 搜索查询,并推理搜索结果是否支持该事实。

他们认为 SAFE 的关键创新在于使用语言模型作为智能体,来生成多步 Google 搜索查询,并仔细推理搜索结果是否支持事实。下图3为推理链示例。

为了将长篇响应拆分为单独的独立事实,研究者首先提示语言模型将长篇响应中的每个句子拆分为单独的事实,然后通过指示模型将模糊引用(如代词)替换为它们在响应上下文中引用的正确实体,将每个单独的事实修改为独立的。

为了对每个独立的事实进行评分,他们使用语言模型来推理该事实是否与在响应上下文中回答的提示相关,接着使用多步方法将每个剩余的相关事实评级为支持或不支持。具体如下图1所示。

在每个步骤中,模型都会根据要评分的事实和之前获得的搜索结果来生成搜索查询。经过一定数量的步骤后,模型执行推理以确定搜索结果是否支持该事实,如上图3所示。在对所有事实进行评级后,SAFE 针对给定提示 - 响应对的输出指标为 支持事实的数量、不相关事实的数量以及不支持事实的数量。

实验结果

LLM 智能体成为比人类更好的事实注释者

iphone13降价800

为了定量评估使用 SAFE 获得注释的质量,研究者使用了众包人类注释。这些数据包含496个提示 - 响应对,其中响应被手动拆分为单独的事实(总共16011个单独的事实),并且每个单独的事实都被手动标记为支持、不相关或不支持。

他们直接比较每个事实的 SAFE 注释和人类注释,结果发现 SAFE 在72.0% 的单独事实上与人类一致,如下图4所示。这表明 SAFE 在大多数单独事实上都达到了人类水平的表现。然后检查随机采访的100个单独事实的子集,其中 SAFE 的注释与人类评分者的注释不一致。

研究者手动重新注释每个事实(允许访问 Google 搜索,而不仅仅是维基百科,以获得更全面的注释),并使用这些标签作为基本事实。他们发现,在这些分歧案例中,SAFE 注释的正确率为76%,而人工注释的正确率仅为19%,这代表 SAFE 的胜率是4比1。具体如下图5所示。

亚信科技(中国)有限公司成都

这里,两种注释方案的价格非常值得关注。使用人工注释对单个模型响应进行评级的成本为4美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 仅为0.19美元。

Gemini、GPT、Claude 和 PaLM-2系列基准测试

最后,研究者在 LongFact 上对下表1中四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的13个大语言模型进行了广泛的基准测试。

具体来讲,他们利用了 LongFact-Objects 中250个提示组成的相同随机子集来评估每个模型,然后使用 SAFE 获取每个模型响应的原始评估指标,并利用 F1@K 指标进行聚合。

结果发现,一般而言,较大的语言模型可以实现更好的长篇事实性。如下图6和下表2所示,GPT-4-Turbo 优于 GPT-4,GPT-4优于 GPT-3.5-Turbo,Gemini-Ultra 优于 Gemini-Pro,PaLM-2-L-IT-RLHF 优于 PaLM-2-L-IT。

更多技术细节和实验结果请参阅原论文。


返回网站首页

本文评论
​Mistral震惊AI圈,最新开源模型Mixtral8x7B性能超越GPT-3.5
划重点:⦁ Mistral发布了Mixtral8x7B模型,其性能超越了GPT-3.5和Meta的Llama2家族。天猫双十二什么时候开始预售⦁ 该模型在开源AI领域引起了巨大反响,但其貌似缺乏安全防护栏...
日期:12-12
inchat软件好用吗 AI创意写作绘画软件推荐_ins绘画软件
inchat是一个轻量级、高效、分布式的异步通信框架,支持聊天和物联网,可以用来快速构建具有后台的聊天服务器,并快速自定义自己的通信api,包括具有不同的通讯可以支持的协议。inc...
日期:12-01
悟空理财创始人_胡军工作室回应代言“悟空理财”:本人也是注册用户
来源:北京商报   近日,胡军曾代言的悟空理财“爆雷”一事引发广泛关注,一度登上微博热搜。有消息称,悟空理财疑似涉及390亿资金,34万出借人的本息资金迟迟不到账。(此前报道:胡军...
日期:08-03
腾讯:2030 年将实现全面碳中和(2020年实现碳中和)
  在 2021 年初启动碳中和规划后,腾讯通过官方公众号宣布今天开始“净零行动”,承诺不晚于 2030 年实现自身运营及供应链的全面碳中和。同时,不晚于 2030 年,实现 100% 绿色...
日期:07-17
AppsFlyer 发布 Zero 套餐,为企业提供终身免费的营销工具与API,最大化自有媒体价值
  Zero 套餐是 AppsFlyer 零预算营销计划的一部分,通过整合产品与工具,为开发者、营销人员与产品经理揭示核心自有渠道的潜在价值   2020 年 6 月 11日, 北京 ,今天,全球归...
日期:07-14
苹果iPhone深夜充电突然自燃 女生枕头烧了个洞:换过电池_iphone充电起火
快科技3月20日消息,据国内媒体报道称,近日,据国内媒体报道,河南安阳一名女子睡觉时将手机放在床头充电,结果手机突然发生了自燃。女子被惊醒后及时处理了起火的手机,但床上的枕头...
日期:03-21
猫咪摔坏12万翡翠手镯被连夜送走 网友:这猫确实费钱「三十万翡翠镯子摔坏最后」
你喜欢猫吗 接下来的一幕会让你无语吗?12月12日,广东揭阳。 一位翡翠店老板分享了一段监控录像。视频中,她为客户挑选的手镯样品放在桌子上,10多分钟后,猫猫跳到桌子上,将手镯从...
日期:12-14
智慧海洋解决方案「中国移动发布《5G智慧海洋发展研究报告》」
通信世界网消息(CWW)7月19日,由中国通信企业协会主办的2023·5G应用创新大会在广州开幕,中国移动发布《5G智慧海洋发展研究报告》,赋能海洋经济高质量发展。在大会主论坛上,中国移...
日期:07-21
2023北京互联网大会即将召开,共话首都数字经济新风向_北京互联网科技展览会
通信世界网消息(CWW)数字经济大潮涌动,互联网产业风帆劲起。2023年9月18日,由北京市通信管理局指导,北京市通信行业协会主办,多家基础电信运营企业与互联网企业联合支持的“数字北...
日期:09-14
繁花演员官宣「电视剧《繁花》上映 网友:只有演员郑恺被拍成了东北大姨」
12月28日消息,据国内多家媒体报道,电视剧《繁花》开播,郑凯在剧中身穿皮毛大衣,烫了卷发的造型引发关注。不少网友调侃,只有郑恺被拍成了东北大姨。据了解,郑恺在剧中饰演魏总,郑恺...
日期:12-29
支付宝(杭州)全球专利申请总量近8000件 获批国家高新技术企业_支付宝申请专利了吗
10月8日 消息:从蚂蚁集团获悉,蚂蚁集团旗下支付宝(杭州)信息技术有限公司全球专利申请总量已接近8000件。另外,高新技术企业认定管理工作网显示,支付宝(杭州)、蚂蚁链、蚂蚁智安...
日期:10-08
续航超过1000公里!丰田电池公布最新进展:成本减少40%_丰田车的电池是什么牌子的?
快科技9月21日消息,据资料显示,丰田6月在中国市场的销量为17.45万辆,同比下降12.8%。相比之下,本田6月在华销量为11.31万辆,同比下降19.8%;日产6月在华销量仅为6.91万辆,同比大跌2...
日期:09-22
雷军发布小米1「雷军回应网友催更小米14:别着急 这次产品很很很强」
10月16日 消息:高通即将在10月25日至26日举行2023年的骁龙峰会,届时将正式推出全新的移动平台骁龙8Gen3。按照以往的惯例,小米14很有可能成为这款新平台的首发机型。甚至有消...
日期:10-17
港股美股暴跌_港股美团跌超11%,市值跌破1万亿港元
查看最新行情   讯 8月16日下午消息,港股美团跌超11%,报159.6港元每股,市值跌破1万亿港元。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。对此,...
日期:08-18
华为参与安卓源代码「官宣:Android 13正式开源 源代码公开!华为等随便用」
  新酷产品第一时间免费试玩,还有众多优质达人分享独到生活经验,快来新浪众测,体验各领域最前沿、最有趣、最好玩的产品吧~!下载客户端还能获得专享福利哦!  Android是开源的...
日期:09-26
百度广告管家功能升级:品牌广告排期一目了然(百度首页都是广告)
  百度广告管家近日针对优质媒体广告管理优化和销售方案优化两方面进行了重大功能升级,为广大优质网络媒体在兔年送出了一份开年大礼。   2011年2月16日,作为百度服务于...
日期:07-26
城市自动驾驶可行了?何小鹏:试了1个小时、0接管、很安全_小鹏无人驾驶汽车
国内新老造车势力,在自动辅助驾驶方面,也就小鹏做出了还算不错的成绩。近日,小鹏汽车CEO何小鹏在朋友圈发消息表示自己试驾了下小鹏P5城市NGP下一个OTA的研发版本,并高度称赞。...
日期:10-12
Unity 推出 AI Hub 市场和帮助游戏开发的 AI 驱动创意解决方案_unity ai planner
6月28日消息:Unity 距离建立自己的 AI 生态系统又近了一步。该公司推出了新工具和专门的市场,帮助游戏开发者利用人工智能技术。投影仪哪种品牌好图片来自 Unity三星one ui怎...
日期:06-28
快手:今年季度鞋服订单量同比增长17.1%
11月2日消息,快手磁力引擎发布《2022磁力引擎鞋服行业数据报告》。报告显示,2022年第一季度,快手上每天同时观看过鞋服视频和直播的用户数超1亿,同比增长50.9%。鞋服话题角度从...
日期:11-08
用粪便挽救生命!全球首款口服粪便微生物药物上市_粪便微生物检查是查什么
快科技4月29日消息,当地时间26日,美国FDA(美国食品药品监督管理局)官网宣布:全球首款口服粪便微生物药物Vowst(SER-109)获批。这款药物由美国公司Seres Therapeutics研发,主要用于接...
日期:04-30