您的位置:首页 > 互联网

猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?「我的世界猩猩怎么驯服」

发布时间:2023-08-14 18:24:02  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】当猩猩学会玩《我的世界》,方法居然和英伟达科学家训练GPT-4智能体的方法一致?

注意,这位玩家正在熟练地玩着《我的世界》,ta游刃有余地进行着收集零食和打碎积木的操作。

镜头一转,我们才发现:玩家的真实身份,竟然是一只猩猩!

没错,这是一项来自「猩猩行动计划(Ape Initiative)」的非人类生物神经网络实验。

而实验的主角Kanzi,是一只42岁的倭黑猩猩。

经过训练后,它学会了各种技能,挑战了乡村、沙漠神殿、下界传送门等环境,一路通关到达终点。

而AI专家发现,猩猩训练师教会它学技能的过程,竟然跟人类教AI玩Minecraft有诸多类似之处,比如上下文强化学习、RLHF、模仿学习、课程学习等。

当猩猩学会玩《我的世界》

Kanzi是来自Ape Initiative的一只倭黑猩猩,它是世界上最聪明的猩猩之一,听得懂英语,还会使用触摸屏。

在Ape Initiative,Kanzi能接触到各种电子触摸屏,这或许为它快速上手《我的世界》打好了基础。

中国boy超级大猩猩我的世界

人们第一次向Kanzi展示《我的世界》时,它一坐到屏幕前就发现了绿色的箭头,然后用手指划向了这个目标物上。

我的世界猩猩怎么驯服

学习三种技能

才不过几秒钟,Kanzi就发现了该怎样在《我的世界》中移动。

随后,它还学会了收集奖励。

我的世界猩猩吃什么

每收集一个奖励,它都会得到花生、葡萄、苹果之类的零食奖励。

我的世界黑猩猩

Kanzi的操作越来越娴熟。

它会分辨和目标箭头同样是绿色柱形的障碍物,在收集奖励时绕开它们。

我的世界大猩猩农场

当然,Kanzi也会遇到难关。它需要使用break工具击碎大的积木块,但这个操作,它此前从未见过。

眼看Kanzi卡住了,人类在旁边开始帮忙,指着所需的工具按钮。然而Kanzi看完后仍然没能领悟。

人类只好亲自上手,用工具敲碎了木块。Kanzi看完后若有所思,在所有人期待的目光中,它也有样学样,点击按钮后击碎了木块。人们瞬间爆发出欢呼。

我的世界猩猩绯矿石

现在,Kanzi的技能树已经集齐了两样:收集零食、打碎积木。

黑鲨冰封制冷背夹 标准版

我的世界黑猩猩

在学习山洞技能的时候,工作人员发现,如果从试图击碎的木块上滑落,Kanzi就会直接走掉。因此,人们为它特别定制了一个任务——

在一个到处都是钻石墙的山洞中击碎木块,来证明它掌握了收藏和击碎的技能。

在山洞里一切都很顺利,然而,Kanzi却遇到了一个问题:它在墙角被卡住了。此时,就需要人类伸出援手。

最终,Kanzi到达了洞穴底部,击碎了最后一道墙。

我的世界猩猩吃什么

人群爆发出欢呼,Kanzi也高兴得和工作人员击掌。

骗过人类

接下来,有意思的来了:工作人员邀请了一位人类玩家,和Kanzi一起玩游戏,当然,他对于Kanzi的身份并不知情。

工作人员打算看一看,这位玩家会在多长时间后意识到,和自己一起玩游戏的并不是人类。

开始,这位小哥只是觉得,对方的移动速度慢到不可思议,

当Kanzi的画面被展现到眼前,小哥直接被吓到后仰。

走出迷宫

之后再玩《我的世界》,Kanzi越战越勇。

每当Kanzi收集到一个奖励,人们就会用欢呼的形式肯定它的行为,如果它失败了,训练员也会用鼓掌和欢呼鼓励它继续进行游戏。

中国boy超级大猩猩我的世界

这时,它已经学会解锁地下迷宫的地图:

中国boy超级大猩猩我的世界

击碎面前的障碍物:

中国boy超级大猩猩我的世界

找到紫水晶:

我的世界猩猩铁傀儡

当Kanzi卡住的时候,它会出去散散心,拿回一根木棍放到自己旁边。

就算不幸失败,Kanzi也会点击按钮,让自己重生。

我的世界猩猩吃什么

最后一关,是一个充满分岔路的巨大迷宫。

我的世界猩猩绯矿石

因为迟迟无法走出迷宫,Kanzi焦躁起来,开始拿着树枝尖叫,或者气得把树枝折断。

我的世界猩猩绯矿石

最终,它让自己平静下来继续闯关,走出了迷宫。

立刻,掌声和欢呼声把Kanzi包围了。

我的世界大猩猩怎么驯服

看来,《我的世界》是被Kanzi这只倭黑猩猩玩明白了。

教猩猩和教AI的相似之处

看着一只倭黑猩猩熟练地玩着电子游戏,多少会有点让人觉得有些荒诞和不可思议。

英伟达高级科学家Jim Fan对此评论道——

尽管Kanzi和它的祖先们一生从未见过《我的世界》,但它很快就适应了电子屏幕上显示的《我的世界》中的纹理和物理特性。

而这与它们一直以来接触和生活的自然环境截然不同。这种泛化水平远远超出了现今为止最强大的视觉模型。

我的世界猩猩吃什么

训练动物玩《我的世界》的技巧本质上与训练人工智能的原则是相同的:

- 基于上下文的强化学习:

金山云营业收入

每当Kanzi在游戏中达到标记的里程碑时,他就会得到一个水果或花生,激励他继续遵循游戏中的规则。

- RLHF:

Kanzi并不理解人类的语言,但它能看到训练人员为他加油打气,还会偶尔给出回应。来自训练人员的欢呼给了Kanzi一个强烈的信号:它走在正确的道路上。

- 模仿学习:

训练员为Kanzi演示了如何完成任务之后,它就立即掌握了相关操作的含义。演示的效果远远超出比单独使用奖励的策略。

- 课程学习(Curriculum learning):

训练员和Kanzi从非常简单的环境开始,逐步教导Kanzi掌握控制技能。最后,Kanzi能够穿越复杂的洞穴、迷宫和下界。

不仅如此,即便是使用了类似的训练技巧,动物的视觉系统就能在极短的时间内识别和适应新的环境,而AI视觉模型则会花费更多的时间和训练成本,甚至常常难以达到理想效果。

我们再次陷入莫拉维克悖论(Moravec's paradox)的深渊:

荣耀x4笔记本

人工智能与人类的能力表现相反。在我们认为无需思考或作为本能的低级智能活动中(如感知和运动控制),人工智能表现很糟糕。但在需要推理、抽象的高级智能活动中(如逻辑推理和语言理解),人工智能却很容易超越人类。

这正好对应了这个实验呈现的结果:

我们最好的人工智能(GPT-4)在理解语言方面接近人类水平,但在感知、识别方面远远落后于动物。

网友:原来猩猩打游戏也会生气

Kanzi和LLMs都可以玩《我的世界》,但Kanzi的学习方式和LLMs之间存在着不可小觑的差异,我们要注意这一点。

我的世界龙珠大猩猩

面对Kanzi优异的学习能力,网友们开始了恶搞。

有人预见6年以后的世界将成为猩球大战......

或者是猩猩喝可乐,融入人类社会......

中国boy超级大猩猩我的世界

甚至马老板也中枪了,被做成了「猴版」马斯克。

也有人说,Kanzi是第一个拥有游戏玩家愤怒的非人类,ta很满意。

我的世界大猩猩怎么驯服

「如果Kanzi有自己的游戏频道,我会老老实实看的。」

我的世界龙珠大猩猩

「在玩游戏上,人类与倭黑猩猩没有太大区别。我们都受到奖励的激励,以执行某些任务并完成目标,唯一的区别是奖励的实际内容。」

「在《我的世界》中,Kanzi 开采钻石的奖励更即时、更原始(食物),而我们开采钻石的奖励则更延迟且与游戏相关。总之,有点疯狂。」

我的世界龙珠大猩猩

先是GPT学会了玩《我的世界》,现在倭黑猩猩也可以玩了,这让人不禁开始期待能用上Neuralink的未来。

我的世界黑猩猩

Jim Fan教AI智能体玩《我的世界》

在教AI玩Minecraft上,人类早已积累了许多先进经验。

早在今年5月,Jim Fan团队就曾把英伟达的AI智能体接入GPT-4,做出了一个全新的AI智能体Voyager。

我的世界大猩猩怎么驯服

Voyager不仅性能完胜AutoGPT,而且还可以在游戏中进行全场景的终身学习!

它可以自主写代码独霸《我的世界》,完全无需人类插手。

可以说,Voyager出现后,我们离通用人工智能AGI,又近了一步。

真·数字生命

接入GPT-4之后,Voyager根本不用人类操心,完全就是自学成才。

它不仅掌握了挖掘、建房屋、收集、打猎这些基本的生存技能,还学会了自个进行开放式探索。

通过自我驱动,它不断扩充着自己的物品和装备,配备不同等级的盔甲,用盾牌格挡上海,用栅栏圈养动物。

大语言模型的出现,给构建具身智能体带来了全新的可能性。因为基于LLM的智能体可以利用预训练模型中蕴含的世界知识,生成一致的行动计划或可执行策略。

我的世界黑猩猩

Jim Fan:我们在BabyAGI/AutoGPT之前就有了这个想法,花了很多时间找出最好的无梯度架构

而在智能体中引入GPT-4,就开启了一种全新的范式(靠代码执行「训练」,而非靠梯度下降),让智能体摆脱了无法终身学习的缺陷。

OpenAI科学家Karpathy也对此盛赞:这是个用于高级技能的「无梯度架构」。在这里,LLM就相当于是前额叶皮层,通过代码生成了较低级的mineflayer API。

我的世界龙珠大猩猩

3个关键组件

为了让Voyager成为有效的终身学习智能体,来自英伟达、加州理工学院等机构的团队提出了3个关键组件:

1. 一个迭代提示机制,能结合游戏反馈、执行错误和自我验证来改进程序

2. 一个技能代码库,用来存储和检索复杂行为

3. 一个自动教程,可以最大化智能体的探索

我的世界黑猩猩

首先,Voyager会尝试使用一个流行的Minecraft JavaScript API(Mineflayer)来编写一个实现特定目标的程序。

游戏环境反馈和JavaScript执行错误(如果有的话)会帮助GPT-4改进程序。

我的世界大猩猩

左:环境反馈。GPT-4意识到在制作木棒之前还需要2块木板。

右:执行错误。GPT-4意识到它应该制作一把木斧,而不是一把「相思木」斧,因为Minecraft中并没有「相思木」斧。

通过提供智能体当前的状态和任务,GPT-4会告诉程序是否完成了任务。

此外,如果任务失败了,GPT-4还会提出批评,建议如何完成任务。

雷军谈小米一年造1000万辆汽车

我的世界龙珠大猩猩

自我验证

其次,Voyager通过在向量数据库中存储成功的程序,逐步建立一个技能库。每个程序可以通过其文档字符串的嵌入来检索。

复杂的技能是通过组合简单的技能来合成的,这会使Voyager的能力随着时间的推移迅速增长,并缓解灾难性遗忘。

我的世界大猩猩怎么驯服

上:添加技能。每个技能都由其描述的嵌入索引,可以在将来的类似情况中检索。

下:检索技能。当面对自动课程提出的新任务时,会进行查询并识别前5个相关技能。

第三,自动课程会根据智能体当前的技能水平和世界状态,提出合适的探索任务。

例如,如果它发现自己在沙漠而非森林中,就学习采集沙子和仙人掌,而不是铁。课程是由GPT-4基于「发现尽可能多样化的东西」这个目标生成的。

我的世界大猩猩怎么驯服

自动课程

作为第一个由LLM驱动、可以终身学习的具身智能体,Voyager的训练过程和猩猩训练过程的相似之处,可以给我们许多启示。

参考资料:

https://twitter.com/DrJimFan/status/1690041641514704896


返回网站首页

本文评论
我赚到第一桶金前的做过的项目_赚到的第一桶金你会做什么
声明:本文来自于微信公众号 黑帽星球(ID:liuliangbianxian),作者:黑帽子,授权转载发布。今天,我和公司合伙人聊天时。偶然间,聊到了大学时我做过的一些小生意。现在回想起来也十分有...
日期:02-05
别怪蔚来变小气,只因对手太心机_蔚来 怎么了
在国内所有自建补能体系的车企中,蔚来可能是最“冤大头”的那一个。论数量,蔚来仅次于特斯拉;论覆盖度,蔚来的超充桩既覆盖了主要城市、高速公路,也贯通了不少平常人迹罕至,但旺季...
日期:08-06
微念归还李子柒公司股权 刘同明卸任李子柒公司监事
12 月 27 日讯:近日,四川子柒文化传播有限公司发生工商变更。杭州微念公司董事长刘同明卸任四川子柒文化公司监事职位,杭州微念公司转让部分所持股权,李佳佳(李子柒)持股增至99%...
日期:12-27
比华为更霸气的中国企业!曾经放出豪言:美国不买我的买谁的?
  众所周知,在进入了高速发展的信息化时代后,众多以科技为本的企业开始由此的崛起,在给人们带来更加高效且快捷的生活方式之际,也对社会的发展起到了积极的推动作用。不过有...
日期:12-18
加强学科建设,优化专业结构:KOOV为中国青少年编程教育发展助力(编程教育与学科融合)
  日前,教育部印发通知,公布了2020年度普通高等学校本科专业备案和审批结果,统计结果显示,新增备案专业数量最多的学科依然是人工智能。高校专业建设跟国家发展战略、国家人...
日期:07-16
腾讯收购了动视暴雪「动视暴雪高管:被微软收购有利于行业和玩家 将捍卫此次交易」
11月25日消息:日前据媒体援引知情人士报道称,美国联邦贸易委员会(FTC)有可能将提起反垄断诉讼,以阻止微软对视频游戏发行商动视暴雪的收购。网络电视机顶盒好今年早些时候,这笔价...
日期:12-02
数据科学家表示,企业需要控制自己的生成式AI 确保安全和差异化
6月28日 消息:在最新的调查数据中,企业MLOps平台Domino Data Lab发现,数据科学家们认为生成式人工智能(generative AI)将在未来几年对企业产生重大影响,但它的功能不能外包,即企业...
日期:06-28
立讯精密:预计2022年盈利95.45亿元至98.99亿元_立讯精密业绩预告2021
10月30日消息,立讯精密发布2022年年度业绩预告,预计2022年归属于上市公司股东的净利润为95.45亿元至98.99亿元,同比增长35%–40%;扣除非经常性损益后的净利润为92.19亿元至96.13...
日期:11-04
思摩尔国际:今日耗资约4984.4万港元回购333.2万股_思摩尔市值712亿港元
查看最新行情 手机微博邮箱在哪里看三星s6怎么删除软件PayPal退出Libra诺基亚1110上市时间  思摩尔国际8月26日港交所公告,公司于8月26日...
日期:09-08
开课吧“调整阵痛期”退费难、欠工资  公司表示在加速转型
被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】 土豆网总裁事件双飞燕车标的含义2021年光电子产业...
日期:07-31
YouTuber 收益调整,谷歌代美国观众收税:拒交税单者将扣除 24% 收入_YouTube收入要交税吗
  3 月 10 日,当地时间周二谷歌旗下视频网站 YouTube 在发给全球 up 主的一封电子邮件中表示,平台支付方式发生了变化,所有 up 主都需要根据美国税率缴税。谷歌表示,在不提交...
日期:07-16
百度类ChatGPT产品官宣确认:文心一言 3月完成内测开放
2月7日消息,此前据外媒报道,百度公司正计划在今年3月推出与OpenAI的ChatGPT类似的人工智能聊天机器人服务,最初版本将嵌入其搜索服务中。现在,经百度确认,该项目名字确定为文心一...
日期:02-07
不碎“弹簧玻璃”登场,或在明年可折叠手机上采用
  9月9日消息 据外媒etnews报道,可弥补采用玻璃材料盖板的可折叠智能手机缺点的“弹簧玻璃”技术登场。据了解,明年使用超薄玻璃(UTG)基板的可折叠手机上很可能采用此技术...
日期:03-18
Soul星人的智商税闲置物品大盘点
  消费主义盛行的年代,东西越买越多,但其实冲动消费的后果,就是买了一堆闲置物品,在家里的角落积灰。Soul APP发起了“你交过智商税的闲置物品”活动,盘点那些年,不如不买的东...
日期:12-14
VR游戏分岔点宣布完两轮共数千万元投资
讯 8月15日上午消息,上海分岔点网络科技有限公司宣布完成数千万元Pre-A轮融资。   本轮融资由红杉中国种子基金投资,资金将主要用于产品研发以及技术团队扩充。在此前半年,分...
日期:08-15
马斯克为城市拥堵支招:隧道是唯一答案「隧道 马斯克」
11月14日消息,马斯克在线上出席了印尼二十国集团工商峰会,演讲中,马斯克谈到了交通堵塞问题,他认为解决城市拥堵的唯一答案就是隧道。在汽车高速发展的今天,从燃油车到新能源汽车...
日期:11-15
三网融合试点方案获批  北京年底或开播IPTV_三网融合政策
三网融合试点方案已经获批,一切顺利的话,今年年底北京市民有望看上IPTV(网络电视)。 知情人士告诉记者,包括北京在内的试点城市的三网融合方案已获放行。不过,“批语很模糊”。...
日期:07-28
10多款iOS应用被发现与安卓恶意软件Golduck有染,传输位置数据
  北京时间1月6日消息,安全研究人员表示,他们已经发现逾10款iPhone应用秘密向与Android恶意软件Golduck有关的服务器传输数据。   Golduck是在逾一年前被发现的。当时,App...
日期:12-18
2023年京东年货节活动规则玩法公布:满300元减40元「京东商城年货节」
12月19日 消息:京麦商家中心正式公布了2023年京东开放平台年货节活动总则。京东表示,今年京东年货节将围绕新年焕新、实惠过年、家乡味道和年礼到家四大核心场景重点布局,覆盖...
日期:12-19
苹果 iPhone 14 卫星紧急求救功能今天开始正式上线_iphone 13 卫星
11月15日消息:苹果公司今天在一份新闻稿中宣布,iPhone14 的卫星紧急求救服务将于今天正式开始推出。苹果公司在 9 月份的 iPhone14 发布会上宣布了这一功能,表示其将在 11 月...
日期:11-17