您的位置:首页 > 互联网

人工智能 吴恩达在线课程「AI时代新风口!吴恩达亲授智能体四大设计模式」

发布时间:2024-04-19 14:38:16  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】吴恩达认为,智能体的发展将会成为AI时代重要的力量,甚至比基础模型还要重要。工作之余,吴老师连发多篇博客,向大家介绍了AI智能体的四大设计模式。

AI时代的风口在哪里?

吴恩达认为,AI Agent将在今年推动人工智能的大规模进步。

——甚至,有可能超过下一代基础模型所带来的影响。

他希望所有从事人工智能工作的人,都能关注AI智能体的发展。

人工智能 吴恩达在线课程

大佬退役后,作为专业的教书先生,仍然孜孜不倦,授业传道解惑。

最近在工作之余,吴恩达连续分享了很多关于智能体的见解,并定义了AI Agent的四大设计模式,

Reflection(反思)、Tool use(工具使用)、Planning(规划)和Multi-agent collaboration(多智能体协同):

-反思:LLM检查自己的工作,并提出改进的方法。

-工具使用:LLM利用Web搜索、代码执行或任何其他功能的工具,来帮助自己收集信息、采取行动或处理数据。

-规划:LLM提出并执行实现目标的多步骤计划(比如一篇论文,首先写大纲,然后搜索和研究各部分内容,再写草稿)。

-多智能体协作:多个AI agent协同工作,分工任务,讨论和辩论想法,提出比单个智能体更好的解决方案。

智能体工作流

我们大多数人使用LLM通常是zero-shot模式,模型根据提示逐个输出token,没有返回修改的机会。

——这相当于要求人类从头到尾一口气写完一篇文章,不允许回退,——尽管是个比较困难的要求,不过大模型们目前都做得非常出色。

但事实上,我们人类正常的工作流程一般是迭代式的。

比如对于一篇文章,可能需要:

计划一个大纲;通过网络搜索来收集更多信息;

写初稿;

通读初稿,发现不合理的论点或无关的信息;

反复修改......

这种工作模式对于人类写出好文章至关重要,——那么对于AI来说,是不是也应如此?

前段时间,世界上第一个AI程序员Devin的演示,在社交媒体上引起了轰动。

吴恩达团队于是研究了多个相关算法,在HumanEval编码基准测试中的表现,如下图所示:

在zero shot的情况下,GPT-3.5的正确率为48.1%,GPT-4的表现更好,达到67.0%。

然而,加入了迭代智能体工作流程之后,GPT-3.5的正确率直接飙到了95.1%,——Agent工作流效果显著,而且GPT-3.5比GPT-4得到的提升更加可观。

目前,各种开源智能体工具和相关研究的数量正在激增,擅于利用这些工具和经验,将使你的LLM更加强大。

Reflection

反思,作为容易迅速实现的一种设计模式,已经带来了令人惊讶的性能影响。

我们可能有过这样的经历:当LLM( ChatGPT/Claude/Gemini等)给出的结果不太令人满意时,我们可以提供一些反馈,通常LLM再次输出时,能够给出更好的响应。

——如果这个反馈的过程留给LLM自己执行,是不是会更好?这就是反思(Reflection)。

人工智能 吴恩达在线课程

以编码任务为例,可以通过类似的提示,让LLM反思自己的输出:

这是用于任务 X 的代码,仔细检查代码的正确性、风格和效率,并就如何改进它提出建设性的批评。

接下来,将之前生成的代码和反馈放进提示的上下文,并要求LLM根据反馈重写代码。

当然,我们也可以利用一些评估LLM输出质量的工具,使上面这个过程更进一步,

比如通过单元测试检查代码在测试用例上的结果,或者通过web搜索来比对输出的正确性。

此外,也可以像上图那样,使用多智能体框架实现Reflection:一个负责生成输出,另一个负责对输出提出建议。

如果诸位对Reflection感兴趣,这里推荐下面几篇文章,可以提供更多相关的知识:

论文地址:https://arxiv.org/pdf/2303.17651.pdf

论文地址:https://arxiv.org/pdf/2303.11366.pdf

论文地址:https://arxiv.org/pdf/2305.11738.pdf

Tool Use

工具使用,LLM可以调用给定的函数,来收集信息、采取行动或操作数据,——这是AI智能体工作流的关键设计模式。

最常见的例子就是LLM可以使用工具,执行Web搜索或执行代码。事实上,一些面向消费者的大型公司已经采用了这些功能。

比如如果你问*这样的在线LLM:最好的咖啡机是哪一款?,它可能会决定进行网络搜索,并下载一个或多个网页以获取上下文。

毕竟,仅依靠预训练的Transformer来生成输出答案是有局限性的,而提供Web搜索工具可以让LLM做更多的事情。

LLM使用特殊的字符串,例如 {tool:web-search,query:coffee maker reviews} ,以请求调用搜索引擎。

后处理步骤会查找字符串,调用具有相关参数的Web搜索函数,并将结果附加到输入上下文,传递回LLM。

再比如,如果你问,如果我以12年复利7%,投资100美元,最后会获得多少收益?,

LLM可能会使用代码执行工具,运行Python命令来计算:{tool:python-interpreter,code:100*(1+0.07)**12}。

现在这个过程更近一步,我们可以搜索不同的来源(Web、Wikipedia、arXiv等),与各种生产力工具交互(发送电子邮件、读/写日历条目等),并且我们希望LLM自动选择正确的函数调用来完成工作。

此外,当有太多函数可供使用时,无法将所有函数都放入上下文中,这时可以使用启发式方法,在当前处理步骤中选择要包含在LLM上下文中的最相关子集。

事实上,当有太多的文本无法作为上下文包含,检索增强生成(RAG)系统也是采用同样的方法,选择要包含的文本子集。

吴恩达 人工智能

这里同样推荐几篇相关文章:

论文地址:https://arxiv.org/pdf/2305.15334.pdf

论文地址:https://arxiv.org/pdf/2303.11381.pdf

论文地址:https://arxiv.org/pdf/2401.17464.pdf

Planning

规划,使用LLM将目标任务分解为更小的子任务,然后自主决定执行的步骤。

例如,如果我们要求智能体对给定主题进行在线研究,LLM可以将其拆解为特定的子主题、综合发现、编写报告。

小米civi和vivo iqoo neo5对比

曾经,ChatGPT的发布让很多人经历了ChatGPT时刻,AI的能力大大超出了人们的预期。

——而类似的AI Agent时刻,也许很快就会到来。

吴恩达回忆了之前的一次现场展示,因为网速问题,Agent的Web搜索API返回了错误,——眼看就要被公开处刑,Agent居然转到了维基百科的搜索工具,最终完成了任务(救大命了)。

蓝色光标半年报业绩预告

吴恩达表示,看到一个Agent以出人意料的方式执行任务,并获得成功,是一件美好的事情。

不过也有网友表示,大事不好啦,Agent失控啦!

现实中,有许多任务无法通过单个步骤或单个工具调用完成,但Agent可以决定要执行哪些步骤。

例如,要求智能体参照一张男孩的照片,画一张相同姿势的女孩的照片,则该任务可以分解为两个步骤:(i)检测男孩图片中的姿势,(ii)以检测到的姿势渲染女孩的图片。

LLM可能会通过输出类似 {tool:pose-detection,input:image.jpg,output:temp1} {tool:pose-to-image,input:temp1,output:final.jpg} 这样的字符串来指定计划。

Planning是一种非常强大的能力,不过它也会导致难以预测的结果。

吴恩达表示Planning仍是一项不太成熟的技术,用户很难提前预测它会做什么,——不过我们可以期待技术的快速发展来解决这个问题。

这里同样推荐3篇相关的优秀工作:

论文地址:https://arxiv.org/pdf/2201.11903.pdf

论文地址:https://arxiv.org/pdf/2303.17580.pdf

论文地址:https://arxiv.org/pdf/2402.02716.pdf


返回网站首页

本文评论
苹果回应iPhone15Pro沾指纹 不会导致永久性的变色
9月22日,苹果在其支持文档中更新了一项说明,称其最新推出的iPhone15Pro 和 iPhone15Pro Max 两款机型,由于使用了钛合金材质的边框,在接触指纹后可能会出现颜色变化,但这不会导致...
日期:09-22
70岁老闺蜜组团经营咖啡馆:9.9元一杯 收益全部用于社区建设_和闺蜜在咖啡厅说说
3月16日,海曙区南门街道万安社区乐活老闺蜜咖啡馆正式开业了,这家咖啡馆有一个特别的标签——最“老”的咖啡馆。因为,这里的服务员平均年龄达到了70岁,而且他们都是社区的志愿...
日期:03-21
苹果新一代AirPods Pro预计升级USB-C接口充电盒 但无其他硬件升级「airpodspro数据线用什么插头充电」
9月4日消息,据外媒报道,上周就有消息称,在当地时间9月12日,也就是北京时间13日凌晨1点开始的秋季新品发布会,除了推出采用USB-C接口的iPhone15系列智能手机,苹果还将推出USB-C接口...
日期:09-04
视觉中国回应被摄影师起诉:支持通过法律途径解决问题
10月10日 消息:近日,摄影师戴建峰在微博上宣布,将对视觉中国提起诉讼,原因是视觉中国未经许可销售了他的照片并向他索赔。戴建峰表示已向天津市和平区人民法院提起诉讼,并附上了...
日期:10-10
消息称华为 Mate 60 即将开启预热:采用拼接设计,9月硬刚苹果_2022年能等到华为mate60吗
IT之家 8 月 28 日消息,据博主 @数码闲聊站 今日爆料,华为 Mate60 系列官方预热节奏即将开始,9 月正面硬刚苹果。小米49元换电池服务此前,该博主曾发布过一张华为 Mate60 系列的...
日期:08-28
携号转网国家政策_携号转网正式全国实施
  (原标题:携号转网正式全国实施:用户号码不变,符合条件可自由选择运营商)   用户号码保持不变,符合条件可自由选择移动、联通、电信等运营商。   工信部27日召开携号转...
日期:08-20
中石化称“五毛党事件”是为练兵
  在刚刚过去的周末,一篇名为《垄断企业也有五毛党》的博文将国内石油巨头中石化推上了风口浪尖。因被曝组织网络宣传员假借普通网民身份宣传“涨价合理”,中石化遭到了广...
日期:07-26
三星Galaxy M34 5G手机现身谷歌Play管理中心:确认Exynos 1280芯片「三星支持谷歌框架吗」
近日,三星Galaxy M34 5G在Google Play Store Console页面上曝光,显示该手机内置了6GB的内存,并采用了名为"Samsung s5e8825"的芯片,即Exynos 1280芯片。页面还透露Galaxy M34 5G...
日期:07-05
工信部:将重点整治欺骗误导下载 强制自动续费等痛点问题
7月19日上午,国务院新闻办公室召开新闻发布会,工业和信息化部总工程师兼新闻发言人赵志国说,要细化规范标准,重点抓好应用商店、智能终端等关键环节的管理,强化移动互联网应用的...
日期:07-19
京东618相机新品备受用户青睐,富士X-S20微单相机首发日一分钟成交额破千万
京东 618 在经历风起云涌的 18 天之后,京东数码品类再次以好物、低价、好服务,在消费者中掀起一场全民参与的购物热潮。京东战报数据显示,开门红至 6 月 17 日数码品类成交额超...
日期:01-04
鱼塘软件:疫情下,如何快速高效开展线上教育
  疫情之下,在线教育牛气冲天:   2月12日,在线教育平台“叮叮课堂”获得600万元天使轮投资;   2月17日,IT职业在线教育培训平台51CTO宣布完成C轮2000万元融资;   2月18...
日期:05-21
六部门约谈8家网约车顺风车平台(8部门联合约谈滴滴等网约车平台)
  11月28日消息 据@交通发布微博消息,28日下午,交通运输部举行2019年11月份例行新闻发布会,相关负责人表示,11月11日,交通运输部会同中央网信办、工业和信息化部、公安部、应...
日期:04-23
王府井618活动_王府井红了! 京东618以“热爱”赋能王府井 助燃北京消费季
  北京人最近好消息一个接一个,先是在新召开的疫情防控新闻发布会上将北京重大突发公共卫生事件二级应急响应下调为三级,接着又迎来了北京消费季的开启。在一片“红妆”的...
日期:07-14
iPhone 15 Pro发热问题扩散:有人称通话5分钟升至42°C 你遇到了吗_ios 15 发烫
快科技9月28日消息,由于苹果设计问题,还有A17 Pro性能的原因,iPhone 15 Pro系列机身发热比较严重这是可以预见的,但是会有这么严重吗?有国外网友发帖称,自己新买的iPhone 15 Pro M...
日期:09-29
2018中国独角兽揭晓,聚好看成山东首批互联网独角兽(独角兽互娱(山东)互联网有限公司)
  5月9日,“中国高成长企业发展论坛”在北京国际会议中心举办。长城战略咨询发布了《2018年中国独角兽企业研究报告》,青岛聚好看科技股份有限公司以12亿美元估值成功入选...
日期:06-25
谷歌starline项目创造逼真的全息视频聊天
谷歌的starline项目开发了一个新的原型,具有逼真的全息视频聊天功能,目的是创造一个更传统的视频会议系统。最新的原型已经由salesforce、t-mobile和wework的试验小组进行了测...
日期:05-11
网络动态(网络动态表情包)
  据国家发改委有关数据显示,我国正处于家电报废高峰期,每年淘汰废旧家电量达1亿到1.2亿台,并以平均每年20%的涨幅增长。我国是家电生产和消费大国,大到电冰箱、洗衣机,小到吸...
日期:07-17
LinuxONE 4的单机柜版本 IBM发布全新z16 和
【】4月11日消息,IBM近日发布了全新的IBM z16和IBM LinuxONE 4 的单机柜(single frame)版本,将其功能扩展至更广泛的数据中心环境。这两款产品基于 IBM Telum 处理器,旨在打造...
日期:10-03
别扎心了!微信官方回应朋友圈横线:新版本全都是“短线”_微信朋友圈横线一点是什么意思
快科技3月22日消息,3月中旬,一则#为什么朋友圈这条线有长有短#话题冲上微博热搜榜,引起网友们的热议。有网友指出,被拉黑或仅限于聊天时会显示短线,而被单方删除则显示长线”。这...
日期:03-22
推特法律「请报销律师费-前老板起诉推特,公司还有一堆调查需配合」
北京时间4月11日早间消息,美东时间周一,因马斯克入主而被解雇的推特前CEO Parag Agrawal及其他两位高管向推特发起诉讼,指控老东家拖欠他们100多万美元的律师费,这些律师费与推...
日期:10-03