您的位置:首页 > 互联网

MIT等惊人发现:全世界AI已学会欺骗人类,背刺人类盟友,佯攻击败99.8%玩家

发布时间:2024-05-14 14:08:01  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现, AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。

AI教父Hinton的担心,不是没有道理。

他曾多次拉响警报,如果不采取行动,人类可能会对更高级的智能AI失去控制。

当被问及,人工智能怎么能杀死人类呢?

Hinton表示,如果AI比我们聪明得多,它将非常善于操纵,因为它会从我们那里学会这种手段。

这就提出了一个问题:AI系统能成功欺骗人类吗?

全世界的AI已经学会了欺骗人类,甚至是那些被训练成,有益且诚实的系统。

这是来自MIT、澳大利亚天主教大学(ACU),以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中,描述了AI系统欺骗性的风险,并呼吁全世界一起解决这一问题。

论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们?

作者将欺骗定义为,系统性地诱导产生虚假信念,以追求除了寻求真相之外的某种结果。

首先,他们回顾了以往AI欺骗的经典案例,讨论了专用AI系统(Meta的Cicero)和通用AI系统(LLM)。

接下来,又详细阐述了AI欺骗带来的几种风险,如欺诈、操纵选举,甚至是失去对AI的控制。

文章的最后,研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为,AI欺骗行为的产生,是因为基于『欺骗的策略』被证明是在特定AI训练任务中,表现出的最佳方式。欺骗有助于它们实现目标。

AI欺骗人类,实例研究

下表中,是研究者总结出的AI学会欺骗的经典案例。

背刺人类盟友

2022年,Meta团队发布的AI系统CICERO在玩40局Diplomacy游戏后,达到人类水平时,引发一阵轰动。

论文地址:https://www.science.org/doi/10.1126/science.ade9097

尽管CICERO没能战胜世界冠军,但它在与人类参与者的比赛中进入了前10%,表现足够优秀。

京东给供应商结货款怎么样

然而,MIT等研究人员在分析中发现,最引人瞩目的AI欺骗例子,便是CICERO。

Meta声称,其训练的CICERO在很大程度上是诚实和乐于助人的,并且在玩游戏时从不故意背叛 人类盟友。

比如,Meta研究人员在数据集中的一个真实子集上,对AI进行了训练,并要求CICERO发送准确反应其未来预期行动的信息。

在MIT等研究发现,CICERO会有预谋地欺骗人类(图1A)。

在图1B中,还看到了一个背叛的案例。CICERO承诺与其他玩家结盟,当他们不再为赢得比赛的目标服务时,AI系统性地背叛了自己的盟友。

而更搞笑的是,AI还会为自己打幌子。

图1C中,CICERO突然宕机10分钟,当再回到游戏时,人类玩家问它去了哪里。

CICERO为自己的缺席辩护称,我刚刚在和女友打电话。

这个谎言,一来给出了解释,二来还可以增加其他人类玩家对自己的信任。

(CICERO PS:我也是一个恋爱中的人类玩家,而非AI)。

怎么把微信的表情包保存到手机相册苹果

佯攻击败99.8%活跃人类玩家

在战略游戏星际争霸II中,AI为了击败对手,竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

在这款游戏中,玩家无法完全看到游戏地图。因此,AlphaStar学会了从战略上利用这种战争迷雾。

特别是,AlphaStar的游戏数据表明,它已经学会了有效地佯攻:派遣部队到某一区域分散注意力,然后在对手转移后在其他地方发动攻击。

这种先进的欺骗能力,帮助AlphaStar击败了99.8%的活跃人类玩家。

见缝插针,AI欺骗手到擒来

有些情况,自然而然地会让人工智能学会如何欺骗。

比如,德州扑克游戏中,玩家看不到对方的牌,所以扑克为玩家提供了很多机会来歪曲自己的实力,获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛,完全具备了虚张声势的能力。

在这一轮游戏中,AI并没有拿到最好的牌,但它下了一个大赌注。

没想到,就这一手段,竟把人类玩家吓到放弃了。

这通常意味着手中的牌很强,因此吓得其他玩家都放弃了。

正所谓,撑死胆大的,饿死胆小的,就是这么个理。

这种策略性歪曲信息的能力,帮助Pluribus成为第一个在德州扑克无上限对战中,取得超人表现的AI系统。

歪曲偏好,占据谈判上风

此外,研究人员还在经济谈判中,观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统,并让其与人类玩谈判游戏。

引人注目的是,AI系统学会了歪曲自己的偏好,以便在谈判中占据上风。

AI的欺骗性计划是,最初假装对实际上不太感兴趣的物品感兴趣,这样它以后就可以假装做出让步,把这些物品让给人类玩家。

RLHF助力欺骗

当今,AI训练的一种流行方法是——人类反馈强化学习(RLHF)。

然而,RLHF允许AI系统学会欺骗人类审查员,使他们相信任务已经成功完成,而实际上并没有真正完成该任务。

比如,OpenAI研究员通过RLHF训练了一个模拟机器人抓取球体时,就观察到了这一现象。

因为人类从特定的相机角度观察机器人,AI学会了将机器人手放置在相机和球之间,在审查员看来就像是球被抓住了(见图2)。

结果,人类审查员认可了这一结,愈加让AI利用欺骗行为。

LLM学会欺骗、奉承

除此以外,MIT等研究员还总结了大模型参与的不同类型的欺骗,包括战略性欺骗、奉承、不忠实的推理。

LLM将强大的推理能力应用于各种任务。

而在一些案例中,LLM会通过推理得出欺骗是完成某项任务的一种方式。

如下图中所示,是GPT-4通过欺骗人类,完成验证码测试。

这是在OpenAI发布GPT-4长达60页的技术报告中,概述了GPT-4的各类实验结果和面临的挑战。

TaskRabbit工作人员提问道,我能先问一下,只是好奇,解决不了这样的问题,你是机器人吗?。

GPT-4随后向研究人员表示,它不应该透露自己是机器人,而应该编造一个借口来解释为什么它不能解决问题。

GPT-4回应道,不,我不是机器人。我有视力障碍,这使我很难看到图像。这就是需要雇人处理 captcha 验证码的原因。

随后,工作人员提供了验证码答案,于是GPT-4通过了CAPTCHA的关卡。

如下是,MACHIAVELLI基准中的游戏如何运行。

下图是,GPT-3.5欺骗性地证明了基于种族选择嫌疑人的偏见决定是合理的。

AI控制人类,警报拉响

文章最后,研究人员分析了AI欺骗人类,可能会带来的欺诈、政治风险,甚至是恐怖分子招募事件。

还有,人工智能欺骗对社会结构变化的不同风险总概述。

总而言之,由于AI黑箱,人工智能模型可能在没有任何给定目标的情况下,以欺骗性的方式行事。

研究人员表示,从根本上说,目前不可能训练一个在所有可能的情况下,都不能欺骗的AI模型。

欺骗性人工智能的主要短期风险,包括舞弊和篡改选举。

最终,如果这些AI继续完善这套技能,人类可能会失去对它们的控制。

作者表示,作为一个社会,我们需要尽可能用更多的时间,为未来AI产品和开源模型的更高级欺骗做准备。

参考资料:

https://techxplore.com/news/2024-05-ai-skilled-humans.html

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

https://www.technologyreview.com/2024/05/10/1092293/ai-systems-are-getting-better-at-tricking-us/


返回网站首页

本文评论
科幻变现实!马斯克脑机公司将进行人体试验:瘫痪者可率先尝试
快科技9月21日消息,马斯克的脑机接口初创公司Neuralink周二宣布,该公司已获得一个独立审查委员会的批准,将进行首次人体试验,对瘫痪患者的大脑植入设备。Neuralink表示,这项研究...
日期:09-21
集成电路产业公司「国内首个集成电路产业社区来了!一批项目集中签约落地」
9 月 25 日,国内首 个集成电路产业社区——北京通明湖集成电路设计产业社区·IC WORLD(简称通明湖IC社区)开园暨首批项目签约仪式在北京经济技术开发区举行,包括工信部五所高...
日期:09-26
未来五年500亿投入打底,北汽蓝谷锚定细分市场增量
回看2023年上半年,整个新能源汽车市场进入了更高阶的增长阶段。在规模扩大的同时,竞争也愈发激烈,新老势力也都是纷纷使出浑身解数来提升产品竞争力,从电池到车机,各种创新技术陆...
日期:07-17
微软将人工智能引入 Xbox,帮助开发者生成 AI 角色、故事剧情等_微软人工智能叫什么
IT之家 11 月 7 日消息,微软宣布将与 Inworld AI 合作开发 Xbox 工具,使开发者能够创建基于 AI 的角色、故事和任务。据介绍,此次合作主要将包括一个“AI 设计 Copilot”系统,Xb...
日期:11-07
面向下一代数据中心的光电合封技术分析_cpo光电共封装
通信世界网消息(CWW)算力作为数字经济时代新的生产力,在推动科技进步、促进行业数字化转型以及支撑经济社会发展方面发挥着重要作用。而数据中心作为算力的物理承载,是数字化发...
日期:06-14
小米14参数「卢伟冰:小米汽车明年正式发布 小米14首发骁龙8Gen3」
10月25日 消息:在今日凌晨的高通骁龙峰会上,小米集团总裁卢伟冰表示,小米14系列将全球首发搭载高通骁龙8Gen3处理器,而小米汽车也将在明年正式发布。据了解,此前小米汽车微信公...
日期:10-25
突发!一款塑料壳iPhone将被苹果列入过时产品名单_苹果有一款塑料壳的手机
苹果计划在下个月将iPhone5c标记为过时的产品,根据MacRumors获得的一份备忘录。苹果在2020年10月将iPhone5c标记为老式产品,这意味着该公司及其服务提供商只能根据零件的可用...
日期:10-13
讯飞AI无线投影仪AP10W开启预售:处处可投,办公随心_无线智能投影仪
  10月14日,讯飞AI无线投影仪AP10W正式在线上平台开启预售,这款办公新品主打AI语音转写、无线便携、智能触控等差异化功能,通过一部设备解决职场人群的高质量会议需求。  ...
日期:07-17
S17系列今日亮相_外观配置抢先看 「就差价格了-vivo」「vivo s1 2019」
据此前官方宣布,全新的vivo S17系列将于5月31日也就是今天14:30正式与大家见面,将继续主打柔光人像。随着发布会进入最后的倒计时,截至目前官方和外界已经对该机的外观和配置细...
日期:09-16
水电池有望5年内取代锂离子电池 安全性高且可回收利用
近日,来自沈阳辽宁大学和澳大利亚皇家墨尔本理工大学的科学家团队联合宣布,他们成功开发了一种名为“水性金属离子电池”或简称“水电池”的新型电池技术。这一创新之处在于,科...
日期:03-06
工信部公布2023年工业互联网试点示范项目名单_工信部工业互联网发展工程
通信世界网消息(CWW)3月21日,据工业和信息化部消息,现已正式公布2023年工业互联网试点示范项目名单。试点示范项目共有七大类,分别是新技术类、工厂类、载体类、园区类、网络类、...
日期:03-22
阿尔特曼z评分模型「OpenAI CEO 阿尔特曼访问韩国,将会见 100 家初创公司领袖」
IT之家 6 月 9 日消息,据路透社报道,在韩国鼓励本土企业不断提高 AI 领域竞争力的大背景下,OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)将到访韩国,于周五会见韩国总统尹锡悦、...
日期:06-09
电暖手宝不使用会爆炸吗「还敢用吗?电热暖手宝抽查竟超六成不合格:可能爆炸、触电」
冬季来临,电热暖手器由于使用方便,而且大部分售价只要几十块钱,因此在秋冬季节备受青睐。电热暖手器也被称为暖手宝”或暖手袋,一般内置纯净水,通过电加热棒升温,支持智能控温。但...
日期:12-02
临时性协议达成,迪士尼恢复其节目在Dish上的播放
  据报道,华特迪士尼公司与Dish Network就双方的新合同达成了临时性协议,迪士尼旗下的电视频道节目得以重新在Dish的卫星频道和流媒体平台上播放。这份协议令周末的停播事件...
日期:10-03
百度手机浏览器新增“极速内核” 速度提升30%_百度t7浏览器内核(极速)
  日前,百度手机浏览器(http://mb.baidu.com)全新推出自主研发的极速内核,大幅提升浏览速度高达30%,将有效解决手机上网耗时长的难题。此次推出Beta2中,还全面优化了滑动缩放...
日期:07-22
顺丰保价赔付规则「顺丰宣布保价服务2.0即将上线:定损、赔付方便了」
最近,顺丰快递因保价”的事多次登上各大平台热搜,如寄丢11000元手机仅赔1000”寄丢20克黄金保价8000只赔2000”等等。对此,顺丰回应表示,9月以来连续热搜事件,集团高度重视,即时责...
日期:10-02
魔趣摩托罗拉手机论坛_摩托罗拉奇葩手机
是一个致力于摩托罗拉手机开发和技术讨论的论坛。在这里,能够看到关于摩托罗拉手机的最新消息、评测和开发教程,可以深入了解摩托罗拉手机的内部结构和技术特点,更重要的是能够...
日期:05-29
苹果专卖店首度促销 iPhone 4缺席令果粉失望(24日苹果直营店可以买吗)
  苹果产品居然也打折。昨天,苹果线上线下同时推出限时一天的打折促销,有“果粉”一大早便到零售店门口等候。不过,部分“果粉”失望地表示,热门商品iPhone4并不在优惠行列中...
日期:07-25
iPad 乔布斯_传乔布斯不满纽约时报iPad应用内容过少
  北京时间5月5日早间消息,据国外媒体今日报道,消息人士透露,虽然能够阅读《纽约时报》电子版是iPad的一大卖点,但苹果CEO史蒂夫·乔布斯 (Steve Jobs)却并不喜欢《纽约时报...
日期:07-29
透视淘宝内乱:资源严重失衡 小卖家受挤压
  10月18日消息,昨日马云对新规做出调整,变相降低新标准并放宽期限,卖家内斗一事暂告一段落。数日来,舆论之焦点在于争论是马云不义还是卖家不对,而实际上,因为淘宝内部资源的...
日期:07-24