您的位置:首页 > 互联网

CMU博士让智能体在真实世界竞技!GPT-4夺冠,但成功率只有一成

发布时间:2023-08-07 20:32:45  来源:互联网     背景:


新智元报道

编辑:Lumina

【新智元导读】NLP技术的发展,使得创建一个在数字世界中的智能代理成为了当下人们关注的热点。此时,来自华人主导的团队推出了WebArena,能够测试智能代理在网络环境中执行任务的实践效果,那么具体我们应该怎么做呢?

长期以来,我们一直有着在人工智能的发展下创建自主的智能代理的愿景。

人们希望这些代理能够与环境进行智能的交互,并实现人类为其设定的目标。

现有的强化学习(RL)框架在模拟的游戏或封闭的领域中取得了巨大的成功,但对于现实中复杂的物理环境却束手无策。

而今的自然语言处理技术(NLP),为人类和大模型在数字世界中的智能交互提供了独特的可扩展环境和学习优势。

例如,WebShop 是一个包含数百万种产品的购物网站环境,代理需要在其中阅读网页、键入查询和单击按钮,才能像人类一样购物。

嘀嗒出行有保障吗

这样的数字任务挑战了智能的一般方面:包括视觉理解、阅读理解和决策,并允许扩展到其他程序中使用更多的功能(GPT-4提供的插件程序)。

诸如此类「数字世界中的智能代理」,为人工智能的落地应用设想了一个看起来还不错的前景。

而就在7月26日,一个以华人为主团队在X(原推特)上推出了测试智能代理在网络环境中执行任务的实践效果的Web环境:WebArena。


WebArena是什么?

WebArena是一个独立的、自托管的 Web 环境。

开发者从电子商务、社交论坛、协作软件开发和内容管理这四类现实中的创建了独立的网站,在功能和数据上模仿真实世界的内容。

WebArena还将工具和知识资源嵌入为独立的网站,以此让智能代理有模拟人类解决问题的能力。

用户可以对智能代理进行自然语言指令的基准测试,实现与Web的具体交互。


在WebArena的环境基础上,开发者发布了一组基准任务,重点是评估任务完成的功能正确性。

其设置基准测试中的任务是多样化的、长期的,并且旨在模拟人类在互联网上经常执行的任务。


订阅OneStopMarket的电子报 告诉我到目前为止,我们商店收到的含有”最佳”一词的评论数量 距离缅因州最大的城市最近的国家公园是哪一个? 取消订单 307 步行测量卡内基音乐厅和 UPMC Shadyside 之间的距离 检查从匹兹堡机场开车一小时是否可以到达匹兹堡的杜肯大学

演示视频:

Agent on Gitlab Gitlab上的代理 "Set up a new, empty repository with the name awesome_llm_reading" “设置名为 awesome_llm_reading 的新空存储库”

Agent on Shopping Website "Tell me the status of my latest order and when will it arrive" “告诉我最新订单的状态以及何时到达”

一般来说,要完成路线导航任务需要智能代理具备复杂的长期规划和推理能力。


为了达成任务目标,智能代理需要:

在维基百科上搜索位于匹兹堡的艺术博物馆,并在地图上确定每家博物馆的位置,根据收集的信息进行优化。

在完成路线规划后,智能代理需要将结果更新到相关代码仓库的README文件中,以文本的形式添加规划好的博物馆游览路线。

逼真且可重现的网页环境

WebArena的目标是创建一个逼真且可重现的网页环境。

主要通过两种方式:

首先,要让环境独立自主而不依赖实时网站来实现可重现性。

小米11 ultra wifi 烧主板

其次,构建许多实际使用网站的开源库,并从这些网站导入数据到我们的环境中来实现逼真性。

这种方式也帮助WebArena规避了技术挑战。例如机器人需要通过验证码、内容和配置的不可预测变化等,这些都会阻碍对不同智能代理在时间跨度上的公平比较。


评价

高度逼真的WebArena可交互环境为基准测试的实现提供了条件。

与其他类似的模拟Web环境相比较,WebArena的基准测试包含人们日常可能遇到的各种任务。

同时,WebArena还设计了评估指标来检查任务执行的功能准确性。

也因此,WebArena的基准测试更贴近真实的环境,智能代理的任务实践效果也更接近现实。


公益慈善中国行

对在WebArena中运行的智能代理执行任务的准确性,有以下两种评估方式:

第一种是测量执行信息搜索任务的正确性。它将预测的答案与注释的参考答案进行比较,有三种实现方式。

第二种方法是程序化地检查执行过程中的中间状态,检查其是否具有意图所指定的预期属性。


整体而言,WebArena提供了一个功能完备、高度模拟现实的测试环境和评估体系。能够衡量智能体执行复杂任务的全面能力。

GPT-4智能体夺得冠军

研究者创建了812个用英语编写的目标测试示例,和实现这些目标的网络交互。

每个任务都会使用验证器进行注释,以编程方式检查任务是否真正按预期完成。

毛衣女神是什么品牌


在这些任务中,表现最好的GPT-4 Agent实现了10.59%的有限端到端任务成功率。


才不到一成,显然有足够的改进空间。

WebArena的试验这也预示着这样一个未来:

随着越来越多的API被整合到环境中,一个由极其多样化和开放式的数字工具和任务组成的生态系统将出现。我们将会培养出更通用和有能力的自主智能代理。

这将为通用人工智能(AGI)的道路带来新的方向。

参考资料:

https://webarena.dev/static/paper.pdf


返回网站首页

本文评论
再谈「屌丝」:大鹏们的电影梦和那个旧时代_大鹏的电影叫什么
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:王珊珊 连然,授权转载发布。《保你平安》被视作大鹏将商业类型与作者表达相交融的一次野心之作。故事中,大鹏饰演的墓...
日期:03-14
ar眼镜成本「一天卖出 1200 万,AR 眼镜怎么就「火」了?」
相比于高举高打,保持「接地气」,反而可能是 AR 成功的正确路径。作者 | 靖宇接近 10 年前的 2013 年,Facebook 创始人马克·扎克伯格,以 30 亿美元的价格收购 Oculus VR,掀起了之...
日期:09-09
有望命名“银河” 吉利全新中高端新能源品牌将发布:首车或对标比亚迪汉
2月4日消息,吉利汽车集团官宣:吉利汽车集团CEO淦家阅在内部年度经营工作大会上宣布,吉利品牌将于2月23日在杭州亚运会主场馆正式发布吉利品牌新能源战略”,并推出吉利品牌中高端...
日期:02-04
京东开放平台公布2022年11.11预售活动规则「京东支付活动2020」
10 月 11 日消息, 2022 年京东开放平台11. 11 预售活动规则公布,本规则适用于2022 年京东11. 11 活动期间参与京东开放平台预售活动的商家。具体来看,预售活动时间: 2022 年 10...
日期:10-12
高德地图上线甄嬛导航语音包_高德地图导航语音叫什么名字
4月25日消息,近日,高德地图宣布与《甄嬛传》官方达成合作,共同推出了高德地图钮祜禄·甄嬛导航语音包。乐视超级智能电视华为emui11正式版发布Jaybird耳机沃尔沃电池技术据高德...
日期:04-25
微软已解散仅成立四个月的工业元宇宙团队 员工均被辞退「微软解散工作室」
2月10日消息,据外媒报道,知情人士称,微软已经解散了仅成立四个月的工业元宇宙团队,该团队的约100名员工已全部被解雇。据了解,微软去年10月成立了工业元宇宙核心团队,从事搭建发电...
日期:02-13
2018联通靓号新规定「打破纪录?联通靓号15666666666起拍价高达1366万元」
【手机中国新闻】你永远不知道一些手机靓号能值多少钱,经过拍卖平台上的价格追逐之后,它们的“身价”可能达到你难以想象的地步。9月13日消息,阿里资产拍卖平台近日上线了一个...
日期:09-16
苹果12pro和promax销量「Pro Max最受欢迎!郭明錤:iPhone 14 Pro系列下半年出货量将达65%」
9月21日消息,日前,天风国际分析师郭明錤发布苹果、iPhone 14与供应链的近期趋势预测。郭明錤表示,在产线转换后,iPhone 14 Pro系列出货占整体iPhone 14出货量在2H22达60–65%,先...
日期:09-26
塞尔达国王的墓在哪「B站上线《塞尔达传说:王国之泪》速通区!第一名能拿5000元」
5月11日消息,任天堂全新大作《塞尔达传说:王国之泪》将于明日正式发售,其中澳大利亚服预计将于今晚22:00解锁,港服和日服均为今晚23:00解锁,购买数字版的玩家今晚就能率先玩到。...
日期:05-11
三星因“经济因素”将旗舰平板电脑Galaxy Tab S9系列推迟到明年发布「三星平板galaxy tab3」
三星曾计划在今年推出Galaxy Tab S9系列,但由于包括经济在内的一些因素,该公司显然没有什么选择,只能推迟发布。Galaxy Tab S9系列原计划于2022年12月推出,但据The Elec报道,三星...
日期:10-09
只顾玩手机不可取!父亲回应3岁女儿坐高铁10小时不哭闹:鼓励孩子独立自理
7月23日,江苏三岁半萌娃在家长引导下坐高铁,10个小时不哭不闹的视频引发网友点赞。不少网友感慨,这个孩子如此小的年纪,表现出来的听话和懂事程度,甚至超过不少大人。据孩子的父...
日期:07-25
iPhone 14降价神速 部分型号已低于iPhone 13官网价_iphone13降价趋势
10月14日消息,iPhone 14全系四款机型都已上市发售了一段时间,Pro版口碑不错,但标准版表现拉胯,Plus版本上市即破发。据iPhone 14系列的第三方渠道最新价格行情显示,iPhone 14 256...
日期:10-18
京东物流亚洲一号西安智能产业园2期正式启动运营「西安市灞桥区京东亚一物流园」
11 月 7 日消息,今年京东11. 11 前夕,京东物流亚洲一号西安智能产业园(“西安亚一”) 2 期正式启动运营,园区投用全流程智能柔性生产模式——北斗新仓,通过机器学习、人工智能实时...
日期:11-08
2023微信公开课:视频号发布创作者增收计划 微信支付尝试刷掌「微信视频号有收入」
3月28日,在2023微信公开课PRO·微信之约上,微信方面发布了视频号对助力创作者、经营者提效增收的计划,以及微信支付、小程序等的各类新工具、新应用。关于视频号,微信方面表示,上...
日期:03-29
特斯拉中国Model Y后轮驱动版交付时间缩短为4至8周_特斯拉model y性能版交付时间
讯 8月18日上午消息,据特斯拉中国官网显示,特斯拉Model Y 后轮驱动版预计交付时间已缩短为4-8周,此前预计交付时间为8-12周。 苹果发布ios13.5更新六月将发布的三款旗舰机 你更...
日期:08-19
抖音商标注册证「抖音异议抖驴商标失败 抖驴商标被准予注册」
9月29日 消息:近日,北京字跳网络技术有限公司对京杭(温州)科技有限公司申请的“抖驴”商标提出异议。马云我对十年内能成功的事情买车走融资租赁skype苹果ipad版下载对此,国家知...
日期:10-02
英特尔推出新款游戏显卡,以性价比挑战英伟达_英伟达游戏显卡和专业显卡
记者 | 彭新9月28日,英特尔在其技术峰会上宣布,将于下个月开始销售面向游戏玩家的新款游戏显卡。该举动有望打破英伟达和AMD对于游戏图形处理器(GPU)市场的垄断。英特尔即将发售...
日期:10-19
还抢星巴克“猫爪杯”?不如讯飞输入法盲打键盘自制一套
  昨日,星巴克在门店发售了一款粉色猫爪造型的双层玻璃杯。根据网传视频,杯中倒入饮料或水之后呈现可爱的猫爪造型,意外成为爆款造成一杯难求的情况,甚至朋友圈打招呼的方式...
日期:07-02
2021中国数字经济新引擎论坛「2023中国数字经济创新发展大会8月在汕头召开」
通信世界网消息(CWW)由工业和信息化部、广东省人民政府联合主办的2023中国数字经济创新发展大会将于8月16日—18日在广东省汕头市举办。数字经济是重组全球要素资源、重塑全球...
日期:07-07
铁路新规明起施行:儿童火车票购票不再只认身高
新版《铁路旅客运输规程》将于2023年1月1日起施行,身高决定儿童票资格的规定即将迎来改变。小米MIX3正式发布根据规定,实行车票实名制的,年满6周岁且未满14周岁的儿童应当购买...
日期:12-31