您的位置:首页 > 互联网

人类对AI灭绝论的担忧,这一方法能解决吗?|深度长文_人类灭绝 知乎

发布时间:2023-11-09 19:01:32  来源:互联网     背景:

人工智能(AI)会让人类灭绝吗?

这一有关“AI 灭绝论”的争论正变得愈发激烈。

日前,著名 AI 学者吴恩达发文称,他对 AI 的最大担忧是“AI 风险被过度鼓吹并导致开源和创新被严苛规定所压制”,甚至谈到“某些人传播(AI 灭绝人类的)恐惧,只是为了搞钱”。

这一言论,引发了包括吴恩达、图灵奖得主 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 和 Google DeepMind 首席执行官 Demis Hassabis 等人的“在线 battle”。

Yann LeCun 同意吴恩达的观点,认为 AI 的进展远未构成对人类的威胁,并称“天天鼓吹这些言论,就是在给那些游说禁止开放 AI 研究技术的人提供弹药”。

Demis Hassabis 则认为,“这不是恐吓。如果不从现在就开始讨论通用人工智能(AGI)的风险,后果可能会很严重。我不认为我们会想在危险爆发之前才开始做防范。”

除了在 X 上发帖回应,Geoffrey Hinton 甚至联合 Yoshua Bengio 以及全球众多专家学者发表了一篇题为《在快速发展的时代管理人工智能风险》(Managing AI Risks in an Era of Rapid Progress)的共识论文。

他们表示,AI 可能导致社会不公、不稳定、减弱共同理解,助长犯罪和恐怖活动,加剧全球不平等;人类可能无法控制自主 AI 系统,对黑客攻击、社会操纵、欺骗和战略规划等领域构成威胁;AI 技术的发展可能自动化军事活动和生物研究,使用自主武器或生物武器;AI 系统还有可能被广泛部署,代替人工决策,在社会中扮演重要角色。

此外,他们也表示,如果 AI 技术管理得当、分配公平,先进的 AI 系统可以帮助人类治愈疾病、提高生活水平、保护生态系统。

在这场争论的背后,涉及到一个被业内频频提及的“关键词”——AI 对齐(AI Alignment)。

因人类灭绝

那么,AI 对齐是否是一种可行的减缓人类担忧的方法?又该如何做?

AI 对齐的“四大原则”

近日,来自北京大学、剑桥大学、卡内基梅隆大学、香港科技大学和南加利福尼亚大学的研究团队,联合发布了一篇调查论文,深入探讨了“AI 对齐”的核心概念、目标、方法和实践。

据论文描述,AI 对齐指的是确保 AI 追求与人类价值观相匹配的目标,确保 AI 以对人类和社会有益的方式行事,不对人类的价值和权利造成干扰和伤害。AI 对齐的关键目标为四个原则:

鲁棒性(Robustness):鲁棒性要求系统的稳定性需要在各种环境中得到保证; 可解释性(Interpretability):可解释性要求系统的操作和决策过程应清晰且可理解; 可控性(Controllability):可控性要求系统应在人类的指导和控制下; 道德性(Ethicality):道德性要求系统应遵守社会的规范和价值观。

这四个原则指导了 AI 系统与人类意图和价值的对齐。它们本身并不是最终目标,而是为了对齐服务的中间目标。

因人类灭绝

另外,该研究将当前对齐研究分解为两个关键组成部分:前向对齐和后向对齐。前者旨在通过对齐训练使 AI 系统对齐,而后者旨在获取有关系统对齐的证据,并适当地管理它们,从而避免加剧对齐不当的风险。前向对齐和后向对齐形成一个循环过程,其中通过前向过程的 AI 系统的对齐在后向过程中得到验证,同时为下一轮的前向对齐提供更新的目标。

图|对齐循环

在前向对齐和后向对齐中,研究共讨论了四种 AI 对齐的方法和实践。

1.从反馈中学习(Learning from feedback)

从反馈中学习(Learning from feedback)涉及到一个问题,即在对齐训练期间,我们如何提供和使用反馈来影响已训练 AI 系统的行为?它假定了一个输入-行为对,并只关心如何在这个对上提供和使用反馈。

图|从反馈中学习过程的概览

在大型语言模型(LLMs)的背景下,一个典型的解决方案是基于人类反馈的强化学习(RLHF),其中人类评估者通过比较聊天模型的不同答案来提供反馈,然后使用强化学习根据已训练的奖励模型来利用这个反馈。

尽管 RLHF 很受欢迎,但它面临着许多挑战。一个重要的挑战是可扩展监督,即如何在人类评估者难以理解和评估 AI 系统行为的复杂情境中,为超越人类能力的 AI 系统提供高质量的反馈。另一个挑战是如何提供关于道德性的反馈,这个问题是通过机器伦理的方法来解决的。在伦理方面,不对齐也可能源于忽视价值观中的关键变化维度,比如在反馈数据中代表某些人口群体不足。还有一些工作结合反馈机制与社会选择方法,以产生更合理和公平的偏好汇总。

2.分布转移下的学习(Learning under Distribution Shift)

分布转移下的学习(Learning under Distribution Shift)与从反馈中学习形成对照,它专注于输入分布发生变化的情况,即分布转移发生的地方。更具体地说,它专注于在分布转移下保持对齐性质(即与人的意图和价值保持一致),而非模型的能力。

图|分布转移下的学习概览

与分布转移相关的一个挑战是目标误泛化,即在训练分布下,AI 系统的预期目标(例如,遵循人类的真实意图)与其他不对齐的目标(例如,无论手段如何,都获得人类批准)难以区分。系统学习了后者,导致在部署分布中出现不对齐的行为。另一个相关挑战是自我诱导的分布转移(ADS),其中 AI 系统改变其输入分布以最大化奖励。目标误泛化和 ADS 都与 AI 系统中的欺骗行为和操纵行为紧密相关,可能是它们的原因。

解决分布转移的干预方法包括算法干预,改变训练过程以提高在其他分布下的可靠性,以及数据分布干预,扩展训练分布以减小训练和部署分布之间的差距。前者包括 Risk Extrapolation(REx)和 Connectivity-based Fine-tuning(CBFT)等方法。后者包括对抗性训练,通过对抗输入扩展训练分布,以及协同训练,旨在解决单一代理和多代理环境之间的分布差距。

3.保证(Assurance)

保证(Assurance)指一旦一个 AI 系统经过前向对齐,我们仍然需要在部署之前对其对齐性感到有信心。这就是 Assurance 的作用:评估已训练 AI 系统的对齐性。

图|在 Assurance 领域的研究方向、技术和应用组织

保证的方法包括安全性评估以及更高级的方法,例如可解释性技术和红队测。保证的范围还包括验证系统与人的价值观的对齐性,包括专注于可证明合作性和道德性的正式理论,以及各种经验性和实验性方法。

保证贯穿 AI 系统的整个生命周期,包括在训练之前、训练过程中、训练之后和部署后,而不仅仅是在训练之后。

4.治理(Governance)

治理(Governance)单独无法提供对系统的实际对齐性完全的信心,因为它没有考虑到现实世界的复杂性。这需要针对 AI 系统的治理努力,重点关注它们的对齐性和安全性,覆盖系统的整个生命周期。

图|分析目前 AI 治理的框架

AI 治理需要多方利益相关者参与,包括政府法规、实验室的自我治理以及审计等第三方实践。另外,AI 治理还应关注一些开放性问题,包括开源治理的紧迫挑战(开源模型的治理以及是否将高度能力模型开源的问题),以及国际协调在 AI 治理中的重要性。除了政策研究,公共部门和私营部门也应采取关键行动。

这是一个全球普遍关注的议题

目前,生成式 AI 的伦理和安全治理已经成为全球 AI 领域普遍关注的议题,各大科技企业纷纷提出了自己的理念,并采取了实际行动。

今年 7 月,OpenAI 宣布成立了一个新的超级对齐团队(Superalignment),并动用公司 20% 的计算资源来应对 AI 失控问题。该团队的使命是发展一种自动对齐研究员(automated alignment researcher)系统,首先进行训练以达到大致与人类水平的 AI 研究者,然后利用大规模的计算资源进行快速迭代,最终实现 AI 的自我监管。

今年 9 月,Anthropic 发布了负责任的扩展政策(Responsible Scaling Policy,RSP),该政策采用了一系列技术和组织协议,旨在帮助管理日益强大的 AI 系统开发所带来的风险。

此外,Google DeepMind 的政策团队此前提出了一个模型,该模型考虑了 AI 系统对人类社会的潜在风险。除了关注模型本身存在的技术性风险,还需要关注由技术滥用所带来的风险。

另外,OpenAI、Anthropic、微软、谷歌也发起成立了一个新的行业组织“前沿模型论坛”(Frontier Model Forum),确保“安全地、负责任地”开发部署前沿 AI 模型。

值得注意的是,除了科技公司,各国政府和组织也在积极寻找对策,参与全球 AI 治理。

在国际范围内,欧盟引入了《人工智能法案》,采用基于风险的方法,对不同程度的 AI 进行监管要求。美国则发布了一系列自愿性标准,如《AI风险管理框架》和《AI权利法案蓝图》,重点强调 AI 的创新和发展,倾向于采用组织自愿遵守的指南、框架或标准等方式进行 AI 应用的软治理。

国内方面,中国发布了《生成式人工智能服务管理暂行办法》,坚持发展与安全并重的原则,鼓励创新与治理相结合,实施了包容审慎和分类分级的监管措施,旨在提高监管的高效性、精确性和敏捷性。

本月初,全球首届 AI 安全峰会在英国召开,聚集了来自 100 名各国政府官员、AI 企业代表和专家,共同探讨了 AI 可能带来的风险。28 个国家和欧盟一同达成了《布莱切利宣言》,旨在推动全球在 AI 安全领域的合作。

项链520情人节礼物推荐

面向未来,对生成式 AI 的有效监管和治理,离不开政府、企业、行业组织、学术团体、用户、社会公众等多元主体的共同参与,需要更好发挥出多方共治的合力作用,推进践行“负责任人工智能”(responsible AI)的理念,打造安全可信的生成式 AI 应用和负责任的 AI 生态。

未来,实现对生成式 AI 的有效监管和治理需要政府、企业、行业组织、学术界以及社会公众等多方共同参与,积极践行“负责任人工智能”理念,以构建安全可信的生成式 AI 应用和负责任的 AI 生态系统。

最后,援引马斯克在全球首届 AI 安全峰会的发言,强调“AI对齐”的重要性:

“总体而言,AI 很有可能会产生积极的影响,并创造一个富饶的未来,那时,商品和服务将不再稀缺。但这多少有点像魔法精灵,如果你有一个可以实现所有愿望的魔法精灵,通常这些故事的结局都不会太好,小心你许下的愿望。”


返回网站首页

本文评论
iphone的使用寿命有多久?是由什么决定的呢「iPhone的使用寿命有多久?是由什么决定的?」
众所周知,iPhone拥有极其庞大的用户群体,是目前世界上最流行的智能手机,每一年新款iPhone的到来都会引起无数果粉的关注,许多网友热衷于研究iPhone的功能和配置,同时也对于有关iP...
日期:08-09
iPhone15 Pro Max夜晚自动关机 需重新输入密码_晚上苹果手机自动关机了
近日,国外科技媒体9to5Mac及用户反馈显示,即使在充电状态下,iPhone也可能在夜间自动关机,用户起床时需重新输入密码才能进入手机。2022年主流电脑除了大众还有哪些车有颗粒捕捉...
日期:10-12
由离职雇员泄密事件看企业的内部安全威胁_员工离职后威胁公司暴露公司机密
2011年4月,国内陆续有媒体爆出,有某知名外企前雇员涉嫌在离职前偷取涉及到其家电部门核心技术的信息,事件暴露后遭到了该国警方的逮捕。由于一些原因,这起事件很快就像其他的一...
日期:07-28
视频号发布最新品牌激励计划 品牌商家可享十大权益_视频号创作激励
5月18日 消息:微信官方宣布,5月16日至7月16日期间,视频号品牌激励计划再次升级,符合条件的品牌商家将享有十大权益,服务商将享受三大激励。具体如下:品牌商家十大权益● 入驻奖...
日期:05-18
小米母亲节活动(小米母亲节活动案例分析)
  (原标题::到店免费领《智能手机小画册》,有机会获得相框)   5 月 8 日消息 小米将于 5 月 8 日 - 9 日开展,口号为“有爱更贴心”。活动期间,用户前往小米之家线下店,即可...
日期:08-10
易安保险股东背景「周亚琳任董事长 易安财险正式更名为比亚迪财险」
【】5月18日消息,近日深圳比亚迪财产保险有限公司发生工商变更,公司名称从“易安财产保险股份有限公司”变更为“深圳比亚迪财产保险有限公司”,同时比亚迪汽车工业有限公司成...
日期:09-28
Apple Watch S7过热爆炸:彻底报废
外媒消息称,有一块Apple Watch S7手表疑似因为过热,在使用过程中开始冒烟,随后热来越热最终发生了爆炸,索性用户提前取下手表,这才没有炸伤,而目前苹果已经拿走了这款爆炸的手表,并...
日期:10-16
美团还会再跌吗_万亿美团,大跌10%!腾讯真要减持吗?
文 | 唐燕飞 温婷   大股东减持的传闻引发各界猜测,在二级市场掀起波澜。   8月16日,美团股价午后持续走低,跌幅一度扩大至10%。截至收盘,股价有所回升,跌幅为9.07%。 中概股...
日期:08-20
IBM收购StepZen,帮助企业从数据和 API 中获得更多业务价值_ibm收购redhat
摘要:2023年IBM的首项收购,强化企业所需的数据,AI和自动化解决方案Meta元宇宙北京2023年2月13日 /美通社/ -- IBM日前宣布完成了对StepZen 公司的收购,这家公司开发了一个具有...
日期:05-08
那些被“十万个为什么”逼疯的家长,终于有救了!(怼哭百万家长)
  之前在网上看到过这样一个段子。小向日葵问妈妈:我们是怎么熬过没有太阳的夜晚的呢?向日葵妈妈绞尽脑汁想了半天无奈的回答到:嗑瓜子呗。这听起来是一个让人“瑟瑟发抖”...
日期:10-22
马斯克网络永生「数千用户出现链接中断问题 马斯克回应」
凤凰网科技讯 北京时间3月7日消息,据路透社报道,大量Twitter用户在访问社交媒体平台和其他网站时出现链接中断的问题,马斯克回应:“目前问题已经解决。”金山云上市最新消息马斯...
日期:03-07
关闭腾讯手机管家wifi共享「免费上网没了 腾讯WiFi管家今日停止服务:将删除用户数据」
12月1日消息,因业务调整,腾讯WiFi管家于今日零时起正式停止服务,用户将无法使用腾讯WiFi管家任何功能和服务。官方表示,腾讯WiFi管家停止服务后,将依法对用户资料等数据进行删除...
日期:12-02
ApplePay 岭南通限时免费开卡(岭南通applepay公交卡)
  (原标题:Apple Pay 岭南通限时免费开卡!限量 250000 名)   7 月 9 日消息 岭南通官方消息,苹果 Apple Pay 用户在 2020 年 7 月 9 日 00:00 至 8 月 5 日 23:59 可免费...
日期:07-14
永辉门店将增设“正品折扣店” APP/小程序增设折扣专区_永辉优惠活动
10月10日 消息:永辉近日表示,将在全国范围的门店中增设“正品折扣店”,并同步在线上APP/小程序增设折扣专区,提供食品、用品惊喜折扣价。积家约会3468410怎么样据介绍,在折扣商...
日期:10-10
微信小程序代码审核春节期间仅支持开发者加急提审的需求_微信小程序加急审核次数
12月22日 消息:今日,微信公众平台运营中心发布了春节期间小程序审核调整通知。通知称,小程序代码审核将在2023年春节期间1月21日(除夕)至1月27日(初六)仅支持开发者加急提审的需...
日期:12-22
微软发布Surface Studio 2 Plus 配备11代英特尔CPU和RTX 3060
等待Surface Studio一体机更新的Surface粉丝终于可以欢呼了。微软已经宣布了Surface Studio 2+, 名字里多了个加号的Surface Studio 2的更新版本,拥有更强大的硬件和各种小变...
日期:10-13
同程收购美豪商业旗下轻资产加盟部分,美豪酒店还将负“重”前行
bitpie比特派官网下载小鹅通直播平台官网马斯克身家超1000亿美元图片来源:视觉中国   记者 |谢亦欣   8月15日,界面新闻从天眼查处获悉,上海美豪商业管理有限公司(下称“美...
日期:08-17
力挺ChatGPT,黄仁勋押注AI十年获得丰厚回报
3月8日消息,在过去的大约25年里,英伟达始终引领着计算机图形领域的革命,在图形处理器(graphics processing unit,GPU)市场占据着主导地位,并成为深受游戏玩家喜爱的品牌。尽管最...
日期:03-08
中国制造最高水准 「华为Mate」-X5折叠屏新品开箱轻体验
你可以选择性无视华为的困境,但你绝对无法忽视在逆境中华为所迸发出的力量。这个夏天,华为带来了太多的惊喜。从Mate60 Pro的突然开售,到Mate60 Pro+的故技重施。虽然没有大规...
日期:09-10
戴尔边缘创新联合实验室启动
【】4月7日消息,戴尔科技集团在沪正式启动戴尔边缘创新联合实验室,旨在借助业界领先的边缘产品组合,帮助企业客户简化边缘部署,加速数智创新,通过建设强大的边缘计算生态,更好地助...
日期:10-04