您的位置:首页 > 互联网

刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力_开源plm软件aras详解

发布时间:2024-10-31 18:13:05  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区,授权转载发布。

开源测试

今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。

目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。

所以,SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对模型的说谎能力进行校准然后进行大幅度优化完善模型能力。

开源地址:https://github.com/openai/simple-evals

有网友表示,看了SimpleQA的测试数据才发现,o1-mini和o1-preview的性能差距这么大,o1-mini连GPT-4o都打不过。

鲸每小时游多少千米

令人惊讶的是,SimpleQA 被有意设计用来挑战像 GPT-4这样的高级模型,其中只包括至少有一次模型尝试失败的问题。这种对抗性的基准测试方法感觉像是一种大胆的转变,旨在揭示模型的局限性并推动模型的发展。

多整开源这是好事。别忘了你名字的初衷啊~

这很有趣,会看到更多的模型被测试,以及它们与我在提供的文本上进行的虚构/幻觉基准测试结果的比较。

很想看看o1模型的完整版测试。

完全同意事实性在人工智能中的重要性。SimpleQA 的引入可以显著提升我们对语言模型在这一领域表现的理解。这是一项及时的举措,准确的数据对于信任人工智能系统至关重要。期待看到这个基准测试的影响。

这很重要,因为确保大模型的事实性对于防止错误信息的传播至关重要,而 SimpleQA 提供了一种标准化的方法来评估和改进模型可靠性的这一关键方面。

贾跃亭称法拉第未来将颠覆法拉利

很棒,重要的更新!

SimpleQA简单介绍

开源组件检测

在数据收集阶段,SimpleQA的问题参考答案由两名独立的 AI 训练员确定,并且训练员在创建问题时被要求提供支持答案的网页链接,以确保答案有可靠的依据。

例如,对于 “谁是苹果公司的创始人之一” 这样常识性问题,训练员会根据历史资料和官方信息确定答案为 史蒂夫乔布斯等,并附上如苹果公司官方网站等相关链接作为证据。

同时,问题的设计使得预测答案易于评估,只允许有一个明确且无可争议的答案,避免了模糊性和歧义性。比如 “哪一年 iPhone 首次发布”,答案明确为“2007年”,而不是一个范围或模糊的表述。

SimpleQA的评估问题和答案都非常简短,这使得运行速度快且操作简单。在评估模型回答时,通过 OpenAI API进行评分也十分迅速。数据集中包含4326个问题,能够在一定程度上降低不同次运行之间的方差,使评估结果更加稳定可靠。

例如,在对多个模型进行测试时,不会因为数据集本身的不稳定性而导致结果出现较大波动,从而能够更准确地比较模型之间的性能差异。

SimpleQA的评估集非常多元化。涵盖历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性,能够全面地检验模型在不同知识领域的事实性回答能力。

另一个好处是它的校准测量功能。通过询问模型对其答案的信心,研究者可以了解模型是否知道它们知道什么,这是一个很重要的校准现象。如果一个模型能够准确地评估自己的信心水平,那么它就是一个校准良好的模型。

OpenAI通过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型进行了综合测试。结果显示,较大模型通常具有更高的性能,但即使是前沿模型在SimpleQA 上的表现也并非完美。

例如,GPT -4o 在回答一些问题时能够给出较高比例的正确答案,但仍有部分错误回答和未尝试回答的情况。同时,通过测量模型的校准情况,发现模型虽然有一定的信心概念,但普遍存在高估自己信心的问题,模型的信心水平与实际回答的准确性之间存在差距。


返回网站首页

本文评论
《黑神话:悟空》亢金星君演员晒幕后照:大家玩到哪一关了_黑神话悟空亢金龙图片
日前,《黑神话:悟空》第三回苦海鬼岛上的主线Boss亢金星君演员身份公开,内地年轻女演员张艺上是此角色的扮演者。据了解,这是张艺上首次在游戏中参与游戏动捕面捕工作,她也在社媒...
日期:08-28
暴雪又崩了「暴雪突然“分手” 网易发话了!非常遗憾 坚持到最后一刻」
暴雪今日意外放出重磅消息,与网易的授权协议在明年1月24日0点到期后将会终止。最新科技名词2019届时,所有《魔兽世界》、《魔兽争霸III:重制版》、《星际争霸》系列,《炉石传说...
日期:11-23
土豆面包被炒到10倍仍被疯抢 大润发超市:保质期短、不建议囤货
10月18日消息,不得不说,很多人确实很喜欢跟风炒作,近期,大润发超市上架了一款土豆面包,由于其外形酷似土豆,好吃又有创意,迅速吸引了关注,不少人纷纷抢购,并在社交平台上分享,结果就导...
日期:10-18
高通推出AI Hub,方便开发者在设备上访问和下载AI模型_高通ale
划重点:双十二家乐福有哪些活动新一代lcd旗舰iphonese4将升级全面屏oppo a1 pro配置介绍- 宋plus dmi四驱版本蓝色...
日期:02-27
马斯克称正规划特斯拉秘密宏图第四篇章,老目标尚未实现_马斯克考虑出书讲解特斯拉
【】6月18日消息,特斯拉CEO马斯克总是雄心勃勃,据媒体报道,马斯克在社交媒体上透露,正在规划特斯拉秘密宏图第四篇章(Master Plan 4),并号称将是史诗级的。目前尚不清楚第四篇章的...
日期:06-18
法官对马斯克提起调查,X公司违抗巴西账号封禁令_马斯克被起诉
4 月 8 日消息,据巴西最高法院的一份文件,巴西最高法院法官亚历山大・德・莫拉埃斯 (Alexandre de Moraes) 周日对埃隆・马斯克 (Elon Musk) 开展妨碍司法公正调查,原因是其名...
日期:04-08
神州鲲泰亮相北京数字安全大会,以智能算力构筑数据安全的坚实底座
7月18日,第二届北京数字安全大会顺利召开,在数字经济蓬勃发展的当下,人工智能作为前沿技术正引领经济发展的新变革,持续带动科技创新、产业升级,助力经济转型和社会发展。伴随着A...
日期:07-18
中国汽车企业利润:宁德时代 比亚迪超100亿美元 合计占比超60%
快科技8月24日消息,中国汽车工业协会秘书长崔东树发表文章指出,中国汽车行业的利润正逐步增强。具体来看,利润总额已从2018年的137亿美元增至目前的170亿美元,显示出持续的增长...
日期:08-25
百度三月将推出ChatGPT风格服务,项目名称为“文心一言”
2月7日消息,近日有消息称,百度3月将推出ChatGPT风格服务。经百度确认,该项目名字确定为文心一言,英文名ERNIE Bot,三月份完成内测,面向公众开放。目前,文心一言在做上线前的冲刺。...
日期:02-07
 马斯克价值5万美元出租房内部曝光:火箭形状的物体、价值33万美元的海报
8月8日消息,美国当地时间周日,传记作家沃尔特·艾萨克森(Walter Isaacson)在X上发图,展示了埃隆·马斯克(Elon Musk)价值5万美元神秘出租屋的内部情况。艾萨克森在发布在X上的帖子...
日期:08-08
iphone13卖爆了_苹果毫无诚意,iPhone14再度传来“坏消息”,果粉:不如iPhone13
作为高端旗舰机手机领域的巨头之一,苹果每次召开发布会都会吸引很多果粉的关注,不管是旗舰手机还是其他产品,都得到了不错的口碑和销量。即使在近两年苹果针对iPhone并没有什么...
日期:08-19
震撼来袭!酷睿Ultra AI强芯加持,华硕破晓Pro14今日开售,活动价5599元!_华硕破晓pro15首发价
以GPT大语言模型为代表的AI应用在2024年迎来井喷式发展,追求高效、智慧办公生产、一台搭载酷睿Ultra AI处理器的笔记本电脑必不可少。4月24日,备受商务办公人士追捧的华硕破晓...
日期:04-24
第1艘无人飞船「首艘前往火星的无人星舰飞船将在2年后发射-马斯克」
【】9月8日消息,马斯克今日在社交媒体X上发文称,首艘前往火星的星舰飞船将在2年后发射,这些是无人的,以测试完整登陆火星的可靠性。如果着陆顺利,那么首批载人火星将在4年后进行...
日期:09-08
啊播放五月「综艺又「活」了,长视频如何掀起五月大战?」
声明:本文来自微信公众号“壹娱观察”(ID:yiyuguancha),作者:王心怡,授权转载发布。许久没见的综艺话题屠榜之势,终于随着《乘风2023》的开播,呼啸而来。前脚全网还在被#蔡少芬谢娜...
日期:05-10
思科被华为打败了吗「曾对华为下死手!死对头思科日子难过:又又又要海量裁员了」
快科技8月10日消息,据国外媒体报道称,在接连裁员后,思科计划启动今年新一轮裁员,预估影响4000名员工。任正非反对自主创新原话根据公司提交的年度文件,截至2023年7月,公司员工总数...
日期:08-10
荣耀magic?「4499元起!荣耀Magic7/Magic7 Pro发布:最强AI手机 一句话全自动操作」
快科技10月30日消息,荣耀Magic7系列今晚正式发布,共两款机型,分别是荣耀Magic7、荣耀Magic7 Pro。两款在核心配置上基本保持一致,主要是外观、影像等方面略有不同。先看外观,荣耀...
日期:10-30
深秋十月枫叶赏 用三星Galaxy S23 Ultra随手就能拍出绝美大片
节气霜降已过预示着秋天也逐步走向了尾声,每到深秋时节,最 佳的赏枫叶活动也渐渐拉开帷幕,赏枫叶时,少不了手机拍摄,不过如何用手机镜头还原枫叶最真实的美,这就对手机影像力提出...
日期:10-27
支付宝大额存款需3年提取?不实「支付宝可以存大额存款吗」
  个人账户的高风险操作行为可能影响账户正常使用。为规避风险,用户须规范使用自己的账户,不要轻易与不明账户交易,不要把个人账户出借给他人使用,也不要进行网络刷单、跑分、...
日期:09-28
小米14 Pro曝光:5000mAh大电池、标配骁龙8 Gen 3「小米14pro测评」
7月3日消息,数码博主@数码闲聊站曝光了小米 14 Pro的配置情况,小米14标准版的电池容量达到了4860mAh,支持90W有线充电和50W无线充电。而Pro版的电池容量为5000mAh,支持120W有线...
日期:07-03
小米15系列首发!华星C9屏幕即将面世:视觉震撼_小米10华星屏是oled吗
快科技10月1日消息,TCL华星官方微信公众号预告,华星C9屏幕即将面世。官方称,华星C9发光材料突破性实现了更佳的色彩还原以及更高的亮度,为用户带来一场震撼的视觉盛宴。华星还提...
日期:10-01