您的位置:首页 > 互联网

DeepMind的新研究:人类最后的自留地失守了?_人类最后的秘境

发布时间:2023-12-13 02:58:32  来源:互联网     背景:

声明:本文来自于微信公众号 硅星人Pro(ID:Si-Planet),作者:油醋,授权转载发布。

AI对人类世界的学习能力,到目前为止仍然停留在语言层面。

喂给大模型语料——最初是维基百科和Reddit,后来扩展到音频、视觉图像甚至雷达和热图像——后者广义上说是换了种表达方式的语言。也因此有生成式AI的创业者认为,一个极度聪明的大语言模型就是那个通往AGI最终答案,多模态的研究道路只是目前对前者的底气不足。

人类最后走向哪里

我们对未知生命族群的想象力以此为限(如果硅基生命也算的话)。当谈起外星生命,冲进脑子里的第一个想法是外星语言,《三体》里三体人的第一次亮相也是关于语言。这是人类文明的操作系统,推己及人,语言也会是其他文明的操作系统。《人类简史》的作者尤瓦尔·赫拉利在今年5月公开表达了他对生成式AI的担忧,掌握了人类语言的AI,已经有能力黑进人类的整个文明背后。

但AI对人类语言资源的占领,也是人类目前对AI威胁性的想象极限。换句话说,无法抽象成语言被表达和记录的东西,AI学不会。而世界处处是秀才遇到兵的故事,读万卷书不如行万里路,从周围环境中获取生活经验的本事,是人类面对AI的灵魂拷问时最后的自留地。

图源:《三体》

乐视max2开箱

直到DeepMind带着一篇新的论文出来,说这块最后的自留地咱说不定也守不住了。

DeepMind高级研究工程师,平时还顾着张罗一些非洲AI技术社群的Avishkar Bhoopchand,和在各种游戏公司做了5年然后去了DeepMind的Bethanie Brownfield领衔的一支18人研究团队,最近在《自然》杂志上发表了一篇新的研究成果。

简单来说,他们在一个3D模拟环境中,用神经网络结合强化学习训练出了一个智能体,这个智能体从未使用过任何预先收集的人类数据,但从零开始学习周遭的模拟环境,习得了人类行为。

在这场实验里,AI和“Culture(文化)”这个概念联系在一起,这好像是第一次。

广义上,谈及人类的“智力”,可以简单理解成有效获取新知识、技能和行为的能力。更实际点说,也就是如何在适当的情境中通过一系列行动以达成目标的能力。比如:

如何动用公式和辅助线解一道几何题。

如何把小红书上看到的一个菜谱变成晚饭餐桌上的一道菜。

如何开一家赚钱的公司。

人类最后的归宿是什么

都是智力的体现。

这篇论文里提到的例子更简单些——如何在一场游览活动中跟住导游,或者如何跟同事介绍一台打印机怎样用。

事实上,我们具备的很多技能都不是一板一眼学来的——比如如何教同事用一台打印机,反而人类的智力特别依赖于我们从其他人那里高效获取知识的能力。这种知识被统称为文化,而从一个个体传递知识到另一个个体的过程被称为文化传播(cultural transmission)。

文化传播是一种社会行为,它依赖整个群体实时以高保真度和高回忆率从彼此那里获取和使用信息,这最终导致了技能、工具和知识的积累和精炼,以及最终形成文明,在个体甚至代际间高度稳定发生的知识转移。而这整个过程并不是从一套经过设计的书籍或视频课开始的。

2030年无人驾驶

当AI研究者在担心喂给大模型的语料会在5年后枯竭,这首先建立在AI存在一个巨大的能力盲区的基础上,也就是直接从环境中将发散信息抽象化的能力。

DeepMind在智能体的训练中引入了GoalCycle3D——一个在 Unity 中构建的3D物理模拟任务空间。看这张图片可以知道,这个空间存在崎岖的地形和各种障碍物,而在障碍物和复杂地形之间有着各种颜色的球形目标,按特定循环顺序经过目标球体会获得积极奖励。

图源:Nature

人类最后的圣地

DeepMind在这个空间中设置了具有“上帝视角”,如何行动能够拿到奖励的红色方智能体,蓝色方智能体则是毫无游戏经验的“被训练方”。

拿到高分奖励即被视为一种“文化”。一个完全没有游戏背景的智能体所具有的文化传播(CT)值为0,一个完全依赖专家的智能体CT值设为0.75。一个在红色方在场时完美跟随,并在红色方离开后仍能继续获得高分的智能体的,CT值为1。

实验的结果是,在一个随机生成的虚构世界中,蓝色方智能体依靠强化学习完成对这种”得高分“文化的习得和超越,而这经历了4个不同的训练阶段。

第一阶段,蓝色方开始熟悉任务,学习表示、运动和探索,但在得分上没有太大改善。

第二阶段,蓝色方体有了足够的经验和失败尝试,学会了它的第一个技能:跟随红色方。它的CT值最终到达了0.75,表明了一种纯粹的跟随。

第三阶段,蓝色方记住了红色方在场时的有奖励循环,并在红色方不在场时能够继续解决任务。

最终的第四阶段,蓝色方能够独立于红色方智能体的引导,以自己的路线来取得更高分数。这表现在训练文化传播度量回落至0——也就是蓝色方不跟着红色方走了——但同时得分继续增加。更准确地说,蓝色方智能体在这个阶段显示出了一种“实验”行为,甚至开始使用假设检验来推断正确的循环,而不是参考机器人,也因此,蓝色方最终超越了红色方,更有效地得到了循环奖励。

这个以模仿学习开始,然后借助深度强化学习来继续进行自我优化甚至找到超越被模仿着的更优解的实验,表明AI智能体能够通过观察别的智能体的行为来学习并模仿这些行为。而这种从零样本开始,实时、高保真地获取和利用信息的能力,也非常接近人类跨代积累和精炼知识的方式。

这项研究被视为向人工通用智能(AGI)迈进的一大步,而如此重要的一步,DeepMind又是在一场游戏里完成的。

极米投影仪2017款

DeepMind曾经在另一种游戏中用零样本的方式完成过一次颠覆,只不过那次它颠覆的就是自己。而那个游戏——对,就是围棋。

2016年3月12日,李世石投子认负。这意味着人类在围棋这项人类自己创造的计算游戏中一败涂地,而甚至没有坐在对面的AlphaGO,在几个月的时间里完成了16万局棋谱的训练。

然后AlphaGO被击败了。

微软surface缺点

击败AlphaGO的是AlphaGO Zero——一个从没有看过任何棋谱,仅从围棋的基本规则开始一步步自学而成的AI棋手。那个纪念击败李世石的AlphaGO版本被称作AlphaGO Lee,AlphaGO Zero以100:0的战绩完全击败了AlphaGO Lee,而前者那时候仅仅训练了3天。

那时的AlphaGO Zero如同现在蓝色方智能体在GoalCycle3D里所呈现的一样,没有无监督学习,没有使用任何人类经验,最终跟上并且击败了自己的前辈。

在2016年以实习生身份进入DeepMind的Richard Everett,也是这篇论文的18人之一。玩电子游戏时人类玩家和看似智能的电脑控制玩家之间的互动让他着迷,也最终引导他进入了人工智能领域。这个关于“AI学习文化传播“的项目是他在DeepMind最喜欢的项目之一。

“在世界上最大的糖果店里做个孩子”,Richard Everett这样描述他在DeepMind的工作感觉。而这篇论文的研究,要归功于来自艺术家、设计师、伦理学家、项目经理、QA测试人员以及科学家、软件工程师、研究工程师之间超过两年的密切合作。

AlphaGO Zero的成功让DeepMind在AGI研究中继续坚持着深度强化学习的技术路线,这才有了GoalCycle3D里所呈现的一切。现在这场通往AGI的大型游戏实验仍在继续。X平台上,Google DeepMind主页下最新鲜的一条推文是:

“欢迎Gemini。”

论文地址:

https://www.nature.com/articles/s41467-023-42875-2


返回网站首页

本文评论
分析师称苹果上月已下达iPhone 15今年生产订单 不及iPhone 14同期
9月5日消息,据外媒报道,从苹果的邀请函来看,他们2023年的秋季新品发布会将在太平洋时间9月12上午10点,也就是北京时间9月13日凌晨1点开始,备受期待的iPhone 15系列智能手机等新品...
日期:09-05
华为Mate 40 5G手机立减2000 提前过双十一_华为mate30 5g降价
华为Mate 50已经开售了一个月,但仍然一货难求,从现在的市场来看华为Mate 40系列依然值得入手,华为Mate 40有麒麟芯+5G的配置,同样有着不错的性能表现,5G版本的华为Mate 40 Pro手...
日期:10-09
中国家用电器研究院联合追觅科技,推出业内首个吸尘器显尘技术白皮书
最近,追觅科技联合中国家用电器研究院发布的《 2023 年吸尘器显尘技术发展白皮书》,引发清洁电器行业高度关注。据悉,这是业内首 个吸尘器关于光照系统显尘技术的白皮书,不仅详...
日期:06-14
三星确认明年带来第9代V-NAND技术:沿用双堆栈架构,将超过300层
作为全球最大的NAND闪存供应商,三星对其V-NAND技术的开发制定了宏伟的计划。近日,三星分享了最新的V-NAND技术开发情况,重申了明年初将开始生产第9代V-NAND技术的产品,将超过300...
日期:10-19
小米 13 全系支持 IP68 防尘防水等级!雷军评价绝了_小米手环防水等级ip67
小米13系列&MIUI 14新品发布会定档12月1日(周四)晚七点,官方继续对新机进行预热,称小米13全系标配 IP68。对此,小米创始人雷军称很厚道,并让大家讨论其它标配 IP68 的旗舰机型有哪...
日期:12-04
联想E43A硬盘可以升级多大「联想e43a」
是一款比较新的电视,受到了许多消费者的青睐。它的高性能、高清晰度以及智能化等特点都让人们对它趋之若鹜。那么,到底有哪些显著的特点呢?首先,的屏幕非常出色,它采用了43英寸4K...
日期:05-29
板卡系统「板卡一哥都撑不住 大佬警告PC市场饱和了:一定要改变」
快科技6月18日消息,从去年下半年开始,PC市场也为需求下滑而且引发行业动荡,不仅AMD、英特尔业绩下滑,PC厂商也不得不裁员、缩减规模,现在板卡一哥华硕也传出了调整的消息。据华硕...
日期:06-19
互联网是哪个世纪最伟大发明_迄今为止最伟大十项发明 互联网排名第四
  5月20日消息,据国外媒体报道,英国Tesco Mobile公司日前发布的调查结果显示,在迄今为止最伟大的10项发明中,互联网排名第4,PC排名第5,而苹果iPhone位居第8。   Tesco Mobile...
日期:07-29
华为已注册两枚 “非凡大师”商标已被多方注册
来源:中关村在线iphone 14 pro或支持30w快充华为在9月25日发布了全新高端品牌ULTIMATE DESIGN非凡大师,该品牌由刘德华担任形象大使。据天眼查App显示,华为技术有限公司已申请...
日期:09-26
苏宁帮客防疫实录:16小时安装隔离区大家电近百台
  2月1日晚6点,成都苏宁帮客的工程师李聪和曹光全接到了一个紧急任务,需要在2月3日前安装完成52台电视和46台热水器。   两个人一天安装一百台左右的家电,这本身就是个十...
日期:05-27
创新视频制作平台Pipio:简单的文字脚本即可生成真人化的数字角色
9月5日 消息:Pipio是一个创新的视频制作平台,能够通过简单的文字脚本,使用真人化的数字角色,在几分钟内制作出高质量的视频。Pipio视频制作简单高效,无需考虑演员选择、场景取景...
日期:09-05
5G官宣_同步放出外观渲染图 「6月6日发布-三星GalaxyF54」
早前有多个渠道透露,三星将在5月推出全新的三星Galaxy F54 5G机型,并且陆续有关于该机外观和配置方面的不少爆料传出。不过此前有消息称该机将推迟到6月发布。而现在有最新消...
日期:09-16
深入践行“千万工程” 联通带你追梦富春山居_富春山居董事长
通信世界网消息(CWW)《富春山居图》是元代画家黄公望晚年隐居浙江富阳时所作,中国十大传世名画之一。画作以水墨横幅长卷的形式展现富春江两岸秀丽的山光水色。时隔数百年,如今,...
日期:12-04
世界知识产权日,抖音发起原创者联盟计划助力版权保护(抖音侵犯著作权)
  随着中国文化产业发展的步伐进一步加快,知识产权保护逐渐成为备受关注的话题。为助力短视频行业的知识产权保护,2020年,抖音宣布启动原创者联盟计划,邀请优质短视频原创作...
日期:08-08
2022元宇宙共享大会|沈昌祥:开辟元宇宙产业新赛道_2021元宇宙大会
央链直播报道, 2022 年 8 月 16 日,“开放与兼容” 2022 元宇宙共享大会暨《元宇宙十大技术》图书首 发仪式,及元宇宙产业委第 一届第二次全体委员大会,在北京西山国管局杏林山...
日期:09-11
快手发视频危险行为「快手打击违规健康科普内容 共处置相关视频超26万个」
10 月 9 日消息,日前,快手发布关于打击违规健康科普内容的处罚公告(第八期),公告称为营造积极、健康、正能量的社区环境,向用户传递科学严谨、真实可信的健康科普内容,快手平台持续...
日期:10-17
短睡眠多久合适「短睡眠者可能“天赋异禀”:每天只需睡四五个小时」
普通打工人永远也睡不醒,明明睡了,又好像总是睡不够,睡不着。华为mate50供应链公司据了解,世界上的确存在天生的长睡眠者和短睡眠者,加州大学的一份研究发现,部分人携带有一种名为...
日期:06-14
东方甄选自营产品抖音直播间复播 吸引数千观众关注
8月2日 消息:东方甄选自营产品的抖音直播间于8月1日恢复直播。当天晚上8点半左右,该直播间共有约3300名观众,橱窗上展示的自营产品包括生鲜和零食等。ios13.7 carplay据了解,东...
日期:08-02
魅族展示Flyme Auto等多款产品 将与极星4一同进入全球市场_魅族良心
凤凰网科技讯(作者/贾楠) 6月29日消息,2023 MWC上海世界移动通信大会(MWC 上海)于近日开幕,星纪魅族集团展示了包括Flyme Auto车机系统、魅族20系列手机等产品,CEO沈子瑜在大会期间...
日期:06-30
 比亚迪宋L在成都车展发布 将于今年四季度上市「比亚迪宋plus成都车展」
【网易科技8月25日报道】首搭“前窄后宽轮胎、无框车门、电动尾翼”三项配置,B级先锋猎装SUV比亚迪宋L今日在成都国际车展首发亮相。苹果6.1寸小吗rtx 4090 需要多大电源据介...
日期:08-25