您的位置:首页 > 互联网

AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%

发布时间:2024-08-20 23:30:44  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】AI掌握自我设计的权力,将会怎样?最近,来自UBC等机构研究人员提出了智能体自动化设计系统,让元智能体使用搜索算法,自动构建强大的同类。

AI训AI已经老生常谈了,那么,AI能够设计出更强的AI吗?

这不,来自UBC等机构的研究人员提出了一种全新系统——智能体自动化设计(ADAS)。

ADAS就是为了让AI自动创建强大的智能体,包括发明新的构建模块,或以新的方式组合它们。

具体来说,作者提出了一个元智能体搜索简单而有效的算法。

其中元智能体根据不断扩大的数据库,迭代编程出有趣的智能体。

动圈式耳机图片

论文地址:https://arxiv.org/pdf/2408.08435

鉴于图灵完备性,新方法可以学习任何可能的智能体系统,包括新提示、工具使用、控制流程,以及组合。

再加上,ADAS本身就是一个智能体,因此也可以实现自身改进,从而让元智能体自我进化。

实验证明,新系统可以让代码自定义智能体,而且元智能体可通过代码,来设计新的智能体。

而且,由元智能体搜索发明的新智能体,即便在跨领域/跨模型转移时,仍保持优越性、稳健性。

正如论文所言,这项研究展示了,一个令人兴奋的新研究方向的潜力,即自动设计越来越强的智能体系统。

AI设计强大的自己,真到了那天,或许AGI就不远了。

那么,它是如何做到的呢?

AI自我设计,代码造物主已来

google tensor规格

机器学习史,指明AI方向

以往,研究人员投入了大量精力,开发强大通用智能体。

其中,基础模型被用作智能体系统中的模块,比如,思维链、自我反思、Toolformer等等。

然而,机器学习的历史告诉我们,手动设计的解决方案,最终会被自我学习的方案所取代。

说来也巧,几天前AI科学家研究也是出自Jeff Clune之手。

不列颠哥伦比亚大学CS教授,曾任OpenAI研究团队负责人,DeepMind高级研究顾问

在上一篇研究中,展示了一个自动化研究流程,AI一口气完成了十篇论文,部分还达到了机器学习顶会的接收的门槛。

李子柒什么时候回来

关键是,AI的助力,直接将研究成本打了下来,每篇论文仅15美元。

那么,若是让AI设计AI,不仅省事省力,而且AI还能自我迭代。

论文中,研究团队提出的ADAS,由三个关键部分组成:

- 搜索空间:定义了ADAS可以创建的所有可能的智能体系统

- 搜索算法:ADAS用来在搜索空间中寻找优秀智能体设计的方法

- 评估函数:用于判断创建的智能体的质量或性能

具体来说,ADAS就是涉及使用搜索算法,来发现搜索空间中的智能体系统,从而优化评估函数。

元智能体搜索

为了进一步实施想法,研究人员提出了元智能体搜索算法,用于演示代码中定义和搜索智能体的方法。

元智能体搜索的核心思想是,让基础模型(FM)作为元智能体,根据不断扩增的数据库,迭代新智能体。

理论上,元智能体可以从头开始编程任何可能的构建模块和智能体系统。

不过,在实践中,为避免元智能体提供任何基本功能(比如FM查询API、现有工具)是低效的。

因此,论文中,作者为元智能体定义了一个简单的框架(100行代码以内),为其提供了一组基本的功能,如查询FM或格式化提示。

结果,元智能体只需要编程一个前向函数来定义一个新的智能体系统,类似于FunSearch中的做法。

这个函数接收任务信息,并输出智能体对任务的响应。

如下图所示,作者展示了元智能体编程新智能体的主要提示,其中提示中的变量,被高亮显示。

提示中,研究人员鼓励元智能体基于不断增长的先前发现档案,探索有趣的新智能体。

另外,他们还在元智能体中采用了自我反思迭代,其中它对提案的新颖性和正确性进行两次迭代的改进,并在运行代码时出现错误时进行最多三次改进。

在生成新的智能体后,研究人员决定使用目标领域的验证数据对其进行评估。

评估结果

ARC挑战

抽象和推理语料库(Abstraction and Reasoning Corpus,ARC)是一个非常具有挑战性的基准,可以通过衡量人工智能系统有效获取新技能的能力,来评估它们的一般智力。

ARC挑战包括3个重要步骤:

-给AI系统展示多个视觉输入输出网格模式的例子

-AI系统从例子中学习网格模式的转换规则

-在给定测试输入网格模式的情况下,预测输出网格模式

经研究团队验证,元智能体搜索能够发现新的代理系统,并在ARC挑战中,优于SOTA人工设计智能体。

推理和问题解决

接下来,元智能体需要接受在数学、阅读和推理领域的考验。

用于测试的是4个常用基准:用于评估阅读理解能力的DROP、评估多语言环境下数学能力的MGSM 、评估多任务问题解决的MMLU,以及评估在科学领域解决研究生水平问题的GPQA。

结果表明,元智能体搜索可以发现性能优于SOTA人工设计的智能体——

元智能体搜索和SOTA人工设计智能体的性能比较,元智能体搜索在每个领域都发现了比基线更好的智能体

不得不强调的一点是,在阅读理解和数学领域,自我学习的智能体把人工设计的智能体远远甩在身后:F1分数提高了13.6/100,准确率提高了14.4%。

元智能体搜索在多任务和科学领域的表现也优于基线,但二者差距没有这么悬殊。

总的来说,不同领域的基准测试结果显示出元智能体搜索在针对特定领域定制智能体方面的有效性。

泛化和可转移性

至此,研究人员已经说明了元智能体搜索可以为各个任务找到有效的智能体,那么,这些新发现的智能体是否具有可转移性和可推广性呢?

这就需要进行新的实验。

首先将发现的代理从GPT-3.5转移到ARC上的其他FM中,以测试在使用一个FM执行元智能体搜索时发现的代理是否可以推广到其他FM中。

团队选择了三种流行的模型进行转移,Claude-Haiku、GPT-4和Claude-Sonnet。

依然采用与在ARC挑战和MGSM中使用的相同的基线。

如下表所示,元智能体搜索到的智能体始终优于人工设计的智能体,而且,差距不小。

值得注意的是,Claude-Sonnet,这个 Anthropic最强大的模型,在所有测试模型中表现最好,使最好的智能体在ARC上达到近50%的准确率。

接下来,研究人员将元智能体所发现的智能体从MGSM领域转移到其他数学领域,以测试新智能体是否可以在不同的领域进行泛化。

同样,测试了MGSM的前3个智能体,并将它们转移到四个流行的数学领域:GSM8K、GSM-Hard、SVAMP和ASDiv,以及在上一小节中除数学之外的三个领域。

如下表所示,与基线相比,元智能体搜索保持了性能优势。

与基线相比,在GSM8K和GSM-Hard上的准确率分别提高了25.9%和13.2%。

更令人惊讶的是,在数学领域中发现的智能体可以被转移到非数学领域。

虽然最初在数学领域中搜索的智能体的性能与专门为目标领域设计的智能体并不完全匹配,但它们仍然优于(在阅读理解和多任务中)或(在科学中)SOTA人工设计的智能体基线。

这些结果表明,元智能体搜索可以发现可推广的设计模式和智能体系统。

作者介绍

这篇论文的一作和二作是两位华人,Shengran Hu和Cong Lu,他们目前都在不列颠哥伦比亚大学(UBC)就读,师从Jeff Clune。

Shengran Hu

Hu现在是UBC的一名博士生,主要研究兴趣是AI智能体和开放式学习系统。

Cong Lu

Cong Lu是UBC向量学院的博士后研究员,致力于开发安全、具有好奇心并能以开放式方式学习的自主智能体。

Lu之前在牛津大学获得了博士学位,在攻读博士学位期间,他对离线强化学习特别感兴趣,包括对未见过的任务的泛化、离线世界模型的不确定性量化、像素学习以及强化学习的扩散合成数据。

Jeff Clune

如前所述,Jeff Clune现任UBC计算机科学的教授,同时也是CIFAR AI主席、向量学院成员,DeepMind高级顾问。

值得一提的是,CIFAR(加拿大高等研究院,发音为see-far)自1982年成立以来不断发展,已从加拿大学者的一个小团体发展成为全球研究界的领导者,象征着全球性、跨学科性和无限性。

向量学院成立于2017年,是一所非盈利研究性机构,也是加拿大政府鼎力支持的AI研究中心,人工智能教父Geoffrey Hinton当年成为了这家机构的首席科学顾问。

参考资料:

https://x.com/jeffclune/status/1825551351746867502

https://www.shengranhu.com/ADAS/

https://arxiv.org/abs/2408.08435


返回网站首页

本文评论
马斯克大嘴又惹祸,消息称苹果再次停止在 X(推特)上投放广告
IT之家 11 月 18 日消息,根据 Axios 报道,由于马斯克本周三发表了反犹太主义言论之后,苹果正在暂停在其 X(推特)社交平台上投放所有广告。bmw病毒测试马斯克在收购推特之后,进行了...
日期:11-18
语音微博解救单身大行动(语音微博解救单身大行动是什么)
     每当节日来临的时候总是别样的不开心!没有人陪着过节啊有木有!单身久了就喜欢呆沙发上发呆啊,就喜欢一个人宅家里听歌看电视啊。传说单身久了,就习惯单身了!这样下...
日期:07-24
不必再加钱买Pro了 iPhone-17要上高刷屏_17pro支持5g吗
来源:中关村在线iPhone的标准版和Pro系列最大的区别在于屏幕的刷新率。Pro系列使用了ProMotion技术,使得手机屏幕能够达到最高120Hz的刷新率。许多用户选择购买Pro系列的原因...
日期:10-19
元宇宙火爆之下,区块链从理想照进现实「元宇宙的风口」
声明:本文来自于微信公众号 孟永辉(ID:menglaoshi007),作者:孟永辉,授权转载发布。当人们一股脑地融入到元宇宙的赛道上,区块链总算是冷静了下来。现在,我们看到的是越来越多的「元宇...
日期:09-28
携程将于今日上午10点开始发放贵州文旅消费券「贵州文旅券可以在哪里用」
10月12日消息,为提振贵州旅游消费,促进贵州省文旅产业恢复,帮助文旅企业纾困,带动省内及周边出游,2022年秋冬季,贵州省文化和旅游厅联合携程集团开展“体验多彩贵州·乐享温暖人生...
日期:10-13
视频生成工具StreamingT2V:可根据文字描述生成2分钟长度的视频_视频快速生成
3月25日 消息:StreamingT2V是一款独特的视频生成工具,它采用了自回归方法来逐帧生成视频内容。这意味着,它会根据前一段视频的内容来生成下一段内容,就像连环画中,每一幅画都是...
日期:03-25
车厘子大概价格「车厘子价格“腰斩” 每斤便宜60元」
近日,随着进口车厘子的大量上市,价格出现了明显的下降。北京新发地批发市场的统计数据显示, 2023 年 12 月 31 日,智利进口车厘子的平均售价为每斤 60 元,相较于 2023 年 11 月 1...
日期:01-08
黑客公布1万个Facebook帐户信息 官方否认(谷歌账号facebook)
  10月19日消息,日前,一个名叫“Team Swastika”的黑客组织在网上公布一份资料,当中包括超过10000个Facebook帐户。   不过,根据Facebook市场公关部门的声明,这些邮件与密码...
日期:07-24
博观而约取 厚积而薄发 创芯慧联致力于国内小基站市场
  12月11日,这一天的北京寒风依旧却也阳光明媚,创芯慧联总经理倪海峰一行人接受了媒体专访,对目前5G小基站芯片的发展进程、市场容量以及未来趋势进行了研读。他指出,小基站...
日期:04-11
苹果Apple Music歌曲数量达到1亿首里程碑_苹果音乐数据
  IT之家 10 月 3 日消息,苹果今日宣布,其 Apple Music 音乐平台的歌曲达到了 1 亿首。  苹果在官方新闻稿中称,从 iTunes 的发明和初代 iPod 首次亮相 21 年以来,我们已经...
日期:10-05
30核心、3nm工艺 苹果新一代高端MacBook将用上M3 Pro处理器「苹果电脑酷睿m3处理器好不好」
快科技5月15日消息,苹果自研的M系列处理器已经有M1、M2两代产品,今年还会有M3系列,预计首发台积电3nm工艺,年底新一代MacBook还会首发M3Pro,性能更强大。MacBook Pro深空灰来自知...
日期:05-15
不出家门就能预约停车位  京东城市要如何做“智能停车”?
  如何从实际上改善城市治理状况?也许我们可以从停车说起。   二十一世纪以来,中国一二线城市的汽车停车保有量呈直线上升,停车成为了每个城市的大难题。截至今年1月,北京...
日期:06-13
小米公司总裁雷军「2024年亚洲最佳管理团队:小米雷军获最佳CEO榜单第一名」
快科技6月19日消息,日前,国际权威财经杂志《机构投资者》(Institutional Investor)公布了2024年亚洲区最佳管理团队排名,其中小米集团获得2024年亚洲最佳管理团队”调查中的多项...
日期:06-19
新春美图喜庆氛围直线拉满 vivo,S16系列陪您提前玉见金兔
近日,vivo邀请多个摄影师针对vivo S16系列拍摄元春氛围感美图,通过创拍充分展示了S16系列颜如玉、烟花配色极具新年感的高颜值外观。微博知名摄影师@摄影师Pinky分享了自己镜...
日期:09-20
诺基亚e71手机卡怎么放「诺基亚e71手机」
是一款经典的智能手机,于2008年发布,备受消费者喜爱。其简洁大方的外观和出色的性能表现深受用户青睐。下面将为大家介绍这款备受赞誉的手机的详细信息。外观设计方面,采用了全...
日期:05-31
英伟达成为 2023 年 AI 初创企业最活跃的投资者:投资了 35 家人工智能公司
12 月 12 日消息:硅谷的全球顶尖芯片制造商 Nvidia (英伟达)在 2023 年成为人工智能领域最活跃的投资者之一,大幅扩大了对 AI 初创企业的投资。据英国《金融时报》报道,Nvidia...
日期:12-12
2011年中国网络团购已经进入到了行业盘整阶段_2020年中国网络团购调查报告
  网络团购作为一种新兴的电子商务模式,可谓吸足了人们的眼球,小到化妆品、写真照、下馆子、看电影,大到酒店住宿、旅游、甚至买车、买房等,每一波团购活动都引来了大批粉丝...
日期:07-26
中国联通陈忠岳:扎根网信事业,强企报国为民 勇担网络强国建设主力军
通信世界网消息(CWW)中国联通始终心怀“国之大者”,深入贯彻网络强国重要思想,牢牢把握新时代新征程网信工作的使命和“十个坚持”重要原则,聚焦建设网络强国、数字中国主责,拓展...
日期:05-14
放假一天不调休!2023清明节假期火车票今日开售「2021清明节火车票」
今年清明节是4月5日,按照官方此前公布的放假安排,只休息4月5日(周三)一天。根据铁路客票预售期15天的规定,今日可以购买清明节当天的火车票,有出行计划的同学,可以登录12306网站、...
日期:03-23
「短」内容为王的时代来了,这会是写手们最好的时代么?_内容为王的概念
声明:本文来自于微信公众号 喜新(ID:noyanjiu),作者:张佳,授权转载发布。下面是一个短视频的脚本:单读这段脚本文字,可谓是索然无味的典范,甚至不通顺到懒得读完。但因为是在短视...
日期:07-31