您的位置:首页 > 互联网

开源版ChatGPT Plus来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体

发布时间:2023-10-25 20:13:24  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

OpenAI ChatGPT Plus 订阅付费功能强大,可以实现高阶数据分析(Advanced Data Analysis)、插件调用(Plugins)以及自动网页浏览(Browse with Bing),能够作为日常生活中的重要生产力工具。可是因为商业原因而选择了闭源,研究者和开发者也只能使用而没有办法在其上面做任何的研究或改进。

基于此,来自香港大学、XLang实验室、Sea AI实验室和Salesforce的研究者联合打造了一款用于真实世界生产力工具的开源智能体框架——OpenAgents,并开源了全栈代码(完整前后端,研究代码),以满足从研究者到开发者再到用户的所有人的需要。

OpenAgents 用基于大语言模型(LLMs)的技术和全栈工程代码尝试近似复刻了 ChatGPT Plus 的功能。智能体能执行 Python/SQL 代码,熟练调用工具,也能上网找地图发帖子,一路从研究代码实现到后端前端,让其变成了人人都能用的落地级别应用。OpenAgents 完整披露了他们采用的技术和遇到的困难,完全开源了代码,包含从科研到逻辑代码到前端代码的一切。代码完善、易于拓展,本地直接可以一键部署,配套提供了含有丰富的使用案例的文档,帮助研究者和开发者在模型上搭建自己的智能体和应用。

OpenAgents 总览图,面向用户的网页界面,面向开发者的本地部署,面向研究者的语言智能体。

  • 代码链接:https://github.com/xlang-ai/OpenAgents

  • 论文链接:https://arxiv.org/abs/2310.10634

  • Demo 链接:https://chat.xlang.ai/

  • 文档链接:https://docs.xlang.ai/

与ChatGPT Plus 的 “一样” 和 “不一样”

左边是 OpenAgents 的实现,右边是 ChatGPT Plus:

百度糯米o2o商业模式

先来看看数据分析功能。同一个分析股票价格的任务,OpenAgents 和 ChatGPT 都能不错地完成用户对股价和交易的分析要求。不过 OpenAgents 可以自动搜索 Kaggle 数据集并下载,ChatGPT 需要用户从本地上传。

再试试 OpenAI 最早推出的插件功能。用户想要画一些八面体,两者都成功调用了 Wolfram 插件画出多种八面体的图片。

最后看看网页浏览。用户想要查询10月20日从中国香港到纽约的机票,OpenAgents 识别用户意图后直接跳转到 Skycanner,像 “真人” 一样一边思考一边在网站中填入信息,最后回到聊天页面总结信息;而 ChatGPT 处于安全考虑保证可控性,和调用插件类似,在云端做网页浏览,将最后搜寻到的信息返回。

由于 OpenAgents 提供了开源的代码,开发者和研究者可以定制,若干行代码适配自己想要的模型,改进、创造自己想要的功能,甚至创造新的 Agent。这对于该方向的进一步开展开发和研究至关重要。

看似简单,生产力能用的智能体为什么踩坑这么多?

智能体的开源框架不少,基于大模型的中间件更是层出不穷,为什么搭建一个真正方便可用的智能体并不容易,OpenAgents 在他们论文中与其他智能体框架进行了对比:

对比 OpenAgents 和其他的框架。

从表格中可以看出,界面(Interface) 和配套环境(Environment) 是 OpenAgents 与众不同的两个因素。现有的开源框架比如 LangChain,AutoGPT 和 BabyAGI 等旨在为开发者提供早期概念验证实现和控制台界面,但在真实世界中却不够鲁棒,这限制了更广泛受众的接入,特别是那些不熟悉编程或控制台的普通用户。而在闭源体系中,OpenAI 在 ChatGPT Plus 中部署了精心设计的产品,尤其是高级数据分析(之前称为代码解释器)、插件和 Bing 浏览等功能,利用进一步训练的模型、业务逻辑代码和培育的软件社区(例如,插件商店)。但是闭源导致它们难以作为开发和研究平台使用,社区无法站在巨人肩膀上探索、评估和改进。在侧重考量这些维度之后,OpenAgents 作为面向真实场景的开源 Agent 框架,为社区提供了一个可与 ChatGPT Plus 一较高下的平台。

在界面上,OpenAgents 提供线上的网页 demo (以及配套的开源代码),非程序员背景的普通用户也可轻松与智能体进行交互,而之前的工作通常不提供或者以控制台指令界面(CLI) 形式提供交互,极大地提高了智能体的使用门槛。在配套环境上,OpenAgents 支持真实世界环境和可控环境,支持超过200+ 的日常工具调用,支持网页自动浏览。

这些功能侧重和配备使得 OpenAgents 成为对于普通用户最没有门槛的选择;也为研究、开发人员等提供可能是最好的直接面向用户的机会。

作为生产力的 Agent 未来的第一步:用户,开发人员,研究人员都能用的 Agent 平台

为了解决上述问题,OpenAgents 的动机是作为一个开源平台,为使用和部署智能体提供,目前包括三个关键智能体:

  • 用于 Python 和 SQL 的数据智能体;

  • 200多个工具使用的插件智能体;

  • 自动网络浏览的 Web 智能体。

OpenAgents 相信,为了让大语言模型发挥其全部潜力,它们必须从纯粹的理论或面向开发者的工具转变为为广泛用户群提供的动态、交互式系统。普通用户可以通过在线 Web UI 轻松探索智能体功能,无需编码专业知识。此外,OpenAgents 为开发者提供完整的业务逻辑和研究代码,以便在本地轻松部署,研究人员可以进一步构建语言智能体。最后,OpenAgents 旨在成为一个真实而全面的人类可交互的智能体评估平台:根据真实需求,真实用户与智能体互动以完成其任务,并记录整个用户 - 智能体互动过程和用户反馈以供进一步评估。与现有的基准测试和平台相比,OpenAgents 提供了一个真实环境,智能体可以满足各种真实的用户需求。

面临和克服的挑战

挑战1: 基于提示来构建真实世界语言模型的弊端

在为真实用户构建基于提示的应用程序时,使用提示中的指令来设定特定要求。这些指令有不同目的,有一些是为了确保大语言模型的输出符合后端逻辑处理的特定格式(以特定键的字典形式输出);有一些是提升输出的美观度(尽可能一条条单独列出项目);有一些是用于防止潜在的攻击(拒绝用户恶意构造的无限循环程序并且执行)。

这些带着约束目的提示来约束语言模型需要开发者研究者反复调试出来一些可以使用的指令,这些指令加在一起通常会是几百个词元(token)甚至上千个词元,这些指令作为前缀会被反复输入到模型造成显卡资源的大量消耗;另外一方面,词元越多越依赖 LLM 有很好的性能,所以说这一条技术路线对大语言模型的指令跟踪能力和支持的上下文长度提出了一定的要求。

当前的开源模型在这些方面已经取得了显著的改进,但是在实验中仍然是不足以用来实际使用的,这方向的研究还可以继续。此外,需要更加重视智能体模型的基础开发和研究,以及针对特定领域和要求训练专用的智能体模型。这种方法可能比仅依赖于提示一个通用强大但固定模型更高效,也更可控。

挑战2: 无法控制的现实因素

实现真实世界的语言智需要面对很多无法控制的现实因素,这些因素包括用户行为、互联网的基础设施和业务逻辑等,它们在过去的研究中并未得到充分建模。这就需要重新评估,甚至推翻许多过去研究中的假设和方法。必须考虑到的事是,调用的 API 所在的服务器可能会崩溃。这种情况需要监控并稳定地完成用户命令,而不是像过去的工具使用研究中所假设的那样。在生成回复的过程中,用户可能会感到不满意,这可能导致语言模型在生成过程中被中断。

此外,像 CAPTCHA 弹出或广告改变网页这样的不可预测事件,可能会在相对稳定的网页结构中引入一定程度的随机性,这在以前的自动浏览网页的工作中未曾考虑过。诸如此类的问题还有很多,比如说在智能体反应和思考的时间内(现在往往需要数秒)就改变的环境,等等。

挑战3: 来自真实场景的额外指标

具体的研究通常过于强调性能指标,而忽视了现实场景中的基本需求。例如,使用流式(即每生成一个词元都尽快显示给用户)可以让用户能够快速感知系统的反馈,而无需等待长篇大论的文本生成完毕再一起看到。特意设计的提示可以让智能体的回复格式更加美观,这对用户体验有着显著影响。然而,现有的方法并未充分考虑这些影响。导致了尽管在准确性上的性能指标优秀,但在实际应用中,它们可能导致响应时间过长、文本可读性差等等导致用户体验不佳的问题,接下来的研究需要进一步考虑性能和用户体验之间的权衡问题。

挑战4: 由系统问题引发的评估复杂性

构建直接针对应用程序的智能体可以满足更多用户需求,同时也能揭示更多评估挑战。但基于 LLM 的应用程序构建会带来额外的复杂性,使得难以判断失败案例是来源于 LLM 应用的限制还是逻辑代码的不足。举例说明,如果说一个用户因为没法从界面中直接拖拽上传文件而造成没有完成用户想要的操作而判断智能体能力不行是不合理的。因此,对智能体设计和操作逻辑的系统进行改进,简化智能体流程以及用户使用逻辑,或者构建一个更加完善的设计和实现逻辑,是有前景且必要的。

未来展望

OpenAgents 可以怎么样帮助社区做下一步的研究和开发?在他们的构想中至少有如下几点:

未来工作1: 搭建更多智能体应用

OpenAgents 打通了一套完整的应用级语言智能体开发流程以及所需要的技术,并且开放了代码。这为其他创新应用与终端用户提供了可能。开发者们可以基于此开发任何自己想要的新应用,比如说多模态对话、语音对话、库级别代码助手等。

未来工作2: 工具和组件集成

OpenAgents 致力于探索和解决构建实用级智能体应用的基本需求,为社区提供了一个强大的基础,使得社区可以轻松地通过集成其他组件进行水平扩展。同时,还可以扩展更多的基础模型,比如最近的大型多模态模型,以及适应新的 UI 设计等。

未来工作3: 人机交互领域研究

开发者和研究者基于 OpenAgents 平台能轻松构建基于大语言模型的新智能体应用程序。OpenAgents 因此能帮助构建应用程序演示,供人机交互(HCI)研究人员深入研究更直观、更用户友好的界面设计。这将提升用户的参与度和满意度。

未来工作4: 自适应用户界面生成

国家卫健委发布口罩使用指南

自动创建用户界面是一个有趣且具有挑战性的领域。这些界面能根据特定标准,如用户的设备、偏好或上下文,进行自我调整或定制。研究人员可以深入研究在基于 OpenAgents 的自适应 UI 中,如何应用大语言模型,以及它们对用户体验的影响。

未来工作5: 大语言模型在实际应用场景下的评估

为大语言模型建立公正且稳健的评估方法,对于公平评价其能力和性能至关重要。目前,通过使用预先收集的数据和受控环境,对智能体进行基准测试。虽然这些评估非常关键,但它们往往无法全面反映真实世界中的动态挑战。鼓励社区对这些评估指标和平台进行扩展或完善,这将显著推动该领域的发展,并为大语言模型的实际性能和能力提供更准确的评估和洞察。


返回网站首页

本文评论
我国拟立法应对 App 过度收集个人信息、大数据杀熟,并对个人信息跨境问题制定规则
  8 月 13 日消息 据中新网报道,个人信息保护法草案(三次审议稿)即将提请十三届全国人大常委会审议。全国人大常委会法工委发言人臧铁伟 13 日在记者会上介绍了三审稿拟作...
日期:07-17
1分钟看完中国电信5G创新合作大会亮点(中国电信5g发布会)
  摘要:中国电信带你看看5G新时代   Hello 5G 赋能未来   中国电信5G创新合作大会   于4月26日在深圳五洲宾馆隆重召开   大会亮点纷呈   1   中国电信集团...
日期:05-18
GPT-4满分通过MIT本科数学考试,却遭同门质疑“作弊”,数据集本身就有问题
声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:Caleb,授权转载发布。这两天,相信大家都被GPT-4满分轻松拿下MIT本科数学考试的事儿给刷屏了。给先不知情的小伙伴...
日期:06-19
经济日报评论:网络直播间不是法外之地(直播平台不是法外之地更不是道德洼地)
来源:经济日报   近日,一位涉嫌销售多款假冒国际知名品牌服饰的网络主播正起劲带货时,被上海警方突击打断,直播间秒变抓捕现场。直播间不是法外之地,要进一步加强网络直播营销...
日期:07-31
淘特官方旗舰店「淘特上线两款智能新品“微店铺”和“心动搜索”_」
11月16日消息,淘特宣布上线两款智能产品:淘特“微店铺”和“心动搜索”。据介绍,淘特“微店铺”和“心动搜索”基于淘特搜索逻辑研发出的体验新功能,通过商业创新和交互创新,提升...
日期:11-25
唐山移动路南分公司:打造优质好网络,护航金秋开学季「唐山移动公司总经理简介」
通信世界网消息(CWW)近日,各大高校迎来了开学季,同学们开启了新学期的校园生活。唐山移动路南分公司全力做好高校迎新通信保障工作,提前精心部署,校园有线、无线网络全面保障,优化...
日期:09-15
马斯克将在推特裁员50% 要求剩下员工办公室坐班「马斯克推特多少」
凤凰网科技讯 北京时间11月3日消息,据彭博社报道,埃隆马斯克计划在推特公司裁员50%(约3700人),以求在完成440亿美元的收购后降低成本。据悉,该公司将在周五通知被裁员的员工。此外...
日期:11-04
“不到一个月销量突破3万辆”!实探汽车消费:新车发布卷动市场,多地真金白银发补贴…丨国庆消费调研
编者按:今年中秋与国庆双节叠加,组成了8天的超级黄金周。作为我国疫情全面放开之后的首个中秋国庆假期,今年黄金周的消费情况备受关注,火热的消费市场也成为观察经济韧性的一个...
日期:10-05
趣AI | 设计应用Canva推免费AI自动绘画生成器 1亿用户免费用「ai绘画工具」
11月15日 消息:AI绘画生成器变得越来越流行,并集成到越来越多的应用程序中。最近,设计应用程序 Canva发布了自有的文本到图像生成器的测试版。这意味着,该平台的1亿用户现在可...
日期:11-20
国家电投智慧能源携手腾讯云,共同促进能源智慧化、绿色化发展
(原标题:国家电投智慧能源携手腾讯云,共同促进能源智慧化、绿色化发展) 9月22日,在国家电投“天枢一号”系列产品发布会上,腾讯云...
日期:09-25
2023世界机器人大会将于8月16日至22日在京举办
  讯 8月3日上午消息,2023世界机器人大会新闻发布会8月2日在北京召开。2023世界机器人大会将于8月16日至22日在北京经济技术开发区亦创国际会展中心举行。本届大会以“开放...
日期:08-03
重新定义运动耳机 「1MORE万魔开放式运动耳机新品S50正式发布」_万魔耳机评测
6月28日,万魔在北京香格里拉酒店举行2023“气场全开”新品发布会,众多行业、媒体大咖、知名数码自媒体人齐聚于此,共同见证颠覆行业技术的1MORE万魔开放式运动蓝牙耳机的诞生。...
日期:09-11
张国清在陕西调研时强调 全面提升产业创新能力 加快推进新型工业化
中共中央政治局委员、国务院副总理张国清近日在陕西调研推进新型工业化工作。他强调,要深入学习贯彻习近平总书记关于新型工业化的重要指示精神,落实全国新型工业化推进大会部...
日期:10-17
价格便宜350元性能提升30%!AMD RX 7600首发评测:能战胜未来的RTX 4060
一、前言:突然就变得很香的RX 7600在RTX 4060 Ti发布之前,原本我们对晚一天上市的RX 7600没有一点信心,甚至可以说完全不看好这块显卡。但这一次,NVIDIA真的是玩脱了,RTX 4060 Ti...
日期:05-25
现在有必要升级win11「Win11硬件要求提高后 快一半的PC被拒之门外:无法升级」
你升级Windows 11系统了吗?按照微软的说法,Win10、Win11用户合计规模有14亿,显然,Win10依然占大多数。这不仅是因为Win11推出的时间还不到两年,还有一点很关键,Win11的硬件要求提...
日期:10-17
微软marketing「Snap挖来微软前高管担任关键广告销售职位」
北京时间3月28日早间消息,据报道,美国阅后即焚社交软件Snapchat开发商Snap聘请了前微软广告主管Rob Wilk担任该公司美洲区总裁,向首席运营官Jerry Hunter汇报工作。这是Snap顶...
日期:10-05
谷歌证实Android Ice Cream10月或11月发布
  据国外媒体报道,谷歌执行董事长艾里克·施密特透露,新版Android操作系统,代号“Ice Cream”将在今年10月或11月正式发布。   艾里克·施密特是这样说的:“对于我们谷歌这...
日期:07-22
荣耀新平板曝光:13英寸大屏 骁龙888芯片「荣耀平板参数详细参数」
今天上午,消息称荣耀新款平板已经获得认证,将很快发布。搭载高通骁龙888移动处理平台,支持66W有线快充,40W UFCS融合快充。国庆档影片票房IDC的数据显示,到2018年年底,平板电脑...
日期:05-13
小米13发布会马上官宣 暂定四大新品_小米5月13发布会
中关村在线消息:根据网上的一些爆料,小米13系列的新品发布会将在12月1日晚上7点半正式举行。下面就为大家梳理一下小米13发布会上的新品。小米13小米13的屏幕会比上一代稍微大...
日期:11-29
9.6亿次播放,品牌复投3次,快手短剧如何兼具流量与商业?_快手短剧收益
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:松 露,授权转载发布。9.6亿次播放,凭借着行业天花板级别的流量数据,由冬漫社出品的短剧《再婚》在近日快手举办的2022第三届金...
日期:12-13