您的位置:首页 > 互联网

研究:GPT-4 在执行多项现实任务中击败其他大语言模型

发布时间:2023-08-11 13:45:43  来源:互联网     背景:

本文概要:

1. GPT-4在大型语言模型中表现出色,取得最高总分4.41。

2. GPT-4在几乎所有领域都领先于其他模型,只有在网购任务中,GPT-3.5表现更好。

苹果官网iphone会降价吗

3. 开源模型整体表现不佳,远远落后于商业模型和 GPT-3.5。

市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明,GPT-4在这一领域脱颖而出。

8月11日 消息:最新的研究显示,在 “现实世界语用任务” 中,GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。

“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。

  • 操作系统:LLM必须执行与计算机操作系统的使用相关的任务。

  • 数据库:这个环境是关于LLM如何与数据库合作。

  • 知识图:此环境测试LLM如何使用知识图。

  • 数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。

  • 横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。

  • 预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。

  • 互联网购物:此场景测试LLM在与在线购物相关的任务上的表现。

武则天的传说皮肤

网页浏览:基于 Mind2Web 数据集,此场景测试LLM执行与使用互联网相关的任务的能力。

结果显示,GPT-4以最高总分4.41领先于其他模型,在几乎所有领域都表现出色,只在网购任务中稍逊于 GPT-3.5。

image.png

竞争对手 Anthropic 的 Claude 模型紧随其后,总得分为2.77,领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比,GPT-4的优势更加明显,开源模型的平均得分只有0.42。

image.png

研究人员指出,开源模型在所有复杂任务中普遍表现不佳,远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界,以便进行更广泛的性能比较。


返回网站首页

本文评论
谷歌Stadia云游戏「谷歌将关闭Stadia云游戏项目,相关开发者称对计划毫不知情」
  谷歌于今天突然宣布将关闭旗下云游戏服务 Stadia,虽然这让很多人很意外,但也在情理之中,Stadia 上虽然有一些好游戏,但是并不划算,还存在视频压缩、输入延迟和其它网络问题,在...
日期:10-01
京东小程序开发平台「京东小程序平台全面开放外部宿主APP接入」
12月20日 消息:今日,京东宣布京东小程序平台全面开放外部宿主APP接入。如果开发者团队有独立APP,想拥有运行京东小程序的能力,就可以作为京东小程序平台的合作方加入。具体步骤...
日期:12-20
麦咭学习手表全新发布 用人工智能唤醒高效学习生活(麦咭儿童智能手表)
  随着智能可穿戴市场的日益火爆,儿童智能手表这一品类在近一两年异军突起,市场规模快速增长,儿童智能手表似乎已经成为孩子们的标配。   1月10日,由讯飞淘云和金鹰卡通联...
日期:07-01
比亚迪生产小米手机吗_小米汽车敲定比亚迪电池?比亚迪:不予置评
查看最新行情   记者/李雨宸   有媒体报道称,小米汽车已经敲定了两家主力电池供应商,分别为宁德时代和比亚迪旗下的弗迪电池,这两家电池公司也是国内新...
日期:08-20
硬核性能,华硕碉堡T20台式机家庭娱乐智选_华硕t20台式电脑
  虽然平板电脑成为很多家庭用户的新宠,但是其依旧无法取代传统台式电脑在家庭娱乐中的重要作用,台式电脑作为性能和稳定性的代名词依旧在家用领域表现着强大的生命力。华...
日期:07-10
肯德基麦当劳的汉堡越卖越小引热议:20年基本没涨价真良心?「肯德基麦当劳汉堡热量」
如果你是快餐爱好者,是不是觉得麦当劳的汉堡越来越小了?事实上,有越来越多的消费者吐槽肯德基、麦当劳卖的汉堡,越卖越小,以往吃一个汉堡就能饱,现在得要吃两三个。有媒体实拍测量...
日期:03-01
微软搜索引擎bing网址_微软开发HTML5版Bing网站支持即时搜索功能
  据国外媒体报道,美国科技博客网站WinRumors报道称,微软正在为Bing增添即时搜索功能,但与Google去年9月份发布的即时搜索功能不同的是,Bing即时搜索功能不支持全部的浏览器...
日期:07-26
社交平台 Reddit E 轮融资规模扩大至 3.7 亿美元,估值 60 亿美元
  北京时间 2 月 24 日下午消息,据报道,社交新闻网站 Reddit 本月早些时候宣布了 2.5 亿美元的 E 轮融资,而他们最新提交给美国证券交易委员会(SEC)的文件显示,该公司现在又...
日期:07-16
阅文发布网文大模型“阅文妙笔”:从数据上给作家指引「阅文写作app」
7月19日,阅文发布了大模型“阅文妙笔”,以及基于该大模型的应用产品“作家助手妙笔版”。阅文集团首席执行官兼总裁侯晓楠表示,“阅文妙笔的落地,是阅文拥抱AIGC,推动IP产业新变...
日期:07-19
史玉柱被约谈“自宫”封博(史玉柱发微博辟谣)
  今年8月,中国人寿副总裁刘家德表示,“中国人寿依然看好银行股,未来民生银行无论通过股权形式融资,还是采取债务形式,都会提供支持。”自称“史大嘴巴”的史玉柱随即在其微博...
日期:07-24
节后朋友圈摄影大赛 用三星Galaxy Z Fold4轻松集赞朋友圈_三星手机摄影大赛获奖作品
每到五一长假结束,各类社交网络与朋友圈都会成为分享假期生活的秀场:各类美图、视频精彩纷呈,仿佛置身于一场亲朋好友间的“摄影大赛”。在人人都用手机记录生活的当下,如果想要...
日期:05-04
《阿凡达2》上映,255元场次被卖空!“它是来救命的”「现在上映的是阿凡达2吗」
声明:本文来自于微信公众号天下网商(ID:txws_txws),作者:丁洁,授权转载发布。据灯塔专业版,截至12月17日上午9时,《阿凡达·水之道》累计票房破了2.38亿,从16日凌晨上映至今,它用了1...
日期:12-18
高铁跨省是不是贵「最热“五一”或将来到 高铁跨省游搜索热度大涨323%」
凤凰网科技讯 4月15日消息,“五一”假期首日火车票正式开售,游客小长假出游预订也即将进入最后的“窗口期”。根据携程数据显示,截至上午9时,“五一”首日高铁跨省游搜索热度环...
日期:04-15
ColorOS助推软件创新加速落地 第十六届全国大学生软件创新大赛决赛开幕
5 月 27 日- 29 日,以“智慧无处不在 服务触手可及”为主题的第十六届全国大学生软件创新大赛决赛将在浙江绍兴国际交流中心举行,来自全国 12 所大学的 30 支团队入围决赛,角逐...
日期:05-26
“2022年全球500强品牌 ”公布_2021年世界500强品牌
  (原标题:“2021 年全球 500 强品牌 ”公布:苹果时隔 5 年再次成为全球最有价值品牌)   1月28日消息 评估权威机构 Brand Finance 每年都会发布 “全球 500 强品牌”,今...
日期:07-10
智慧办公,一屏到位!优秀企业团队奖就选华为办公宝(华为举行智慧办公新品发布会)
  伴随5G、AI、云、loT等前沿技术的发展,“智慧化”不仅让生活更方便,也逐渐进入办公场景,助力办公更高效。基于此,华为发布了“智慧办公,一屏到位”的华为办公宝,一体式融合智...
日期:07-16
手机充电进入个位数时代 Redmi 210W快充9分钟充满_redmi7充电速度
10月28日 消息:近年来,国内手机厂商们在新机创新上,逐渐聚焦充电功率,快充技术成为新一轮的竞争焦点。新发布的一批安卓手机,基本上快充已经成为标配,不少入门级千元机都已经具备...
日期:10-30
最快6月2日早就能玩到!《暗黑4》全球解锁时间公开「暗黑四出了吗」
今天早些时候,暴雪总裁Mike Ybarra发布了《暗黑破坏神4》标准版、豪华版与终极版的发售时间。arm架构和riscv架构和此前公布的信息一致,豪华版和终极版用户可以提前进入游戏,这...
日期:04-06
Q3电动两轮车排行出炉 九号机械师登顶:行业首家同时搭载ABS、TCS
近日,鲁大师发布2022年Q3季度电动车报告,带来电动两轮车最新排行,测试车型为市面主流品牌的主流车型,共12款。华为mate50pro概念机有5g吗在Q3排行中,九号以693分位居榜首,旗下机械...
日期:10-20
联想ideapadz470_联想ideapadz470笔记本可以换cpu
联想Ideapad Z470是一款笔记本电脑,它拥有强大的处理能力和丰富的功能,能够满足用户的多种需求。接下来,我们将介绍联想Ideapad Z470的详细信息。硬件配置联想Ideapad Z470采用...
日期:05-29