Sam Altman 北京智源大会「AI 安全与对齐」分论坛演讲实录：十年内将出现超级 AI

6月11日消息:如何确保越发强大和通用的人工智能系统安全可控，符合人类意图和价值观? 这一问题可能是本世纪人类社会面临的最紧迫和最有意义的科学挑战之一。OpenAI 联合创始人 Sam Altman 与北京智源人工智能研究院理事长张宏江就此展开对话。

OpenAI，ChatGPT，人工智能，AI

在日前的 2023 年北京智源大会上，Sam Altman 以视频连线方式「AI 安全与对齐」分论坛中露面，发表关于 AI 安全的演讲，并且与智源研究院理事长张宏江进行对谈。

在北京智源大会上，智源研究院院长张宏江提问:OpenAI 会开源大模型吗?OpenAI 联合创始人 Sam Altman 表示，我们未来会有更多开源，但没有具体模型和时间表。另外，当张宏江问:AGI 和大模型的下一步是什么? 会很快看到 GPT-5吗?Sam Altman 表示，我也很好奇，我们没有答案。我们不会很快有 GPT-5。

以下为「AI 安全与对齐」分论坛 Sam Altman 演讲实录：

今天，我想谈谈未来。具体来说，就是我们在人工智能能力方面看到的增长速度。我们现在需要做什么，为它们引入世界做好负责任的准备，科学史教会我们，技术进步遵循指数曲线。我们已经能从历史中看到这一点，从农业、工业到计算革命。人工智能令人震撼的不仅是它的影响力，还有它的进步速度。它拓展了人类想象力的边界，并且以快速的步伐进行着。

想象一下，在未来十年里，通常被称为通用人工智能（AGI）的系统，在几乎所有领域都超越了人类的专业水平。这些系统最终可能超过我们最大公司的集体生产力。这里面潜藏着巨大的上升空间。人工智能革命将创造共享财富，并使提高每个人生活水平成为可能，解决共同挑战，如气候变化和全球卫生安全，并以无数其他方式提高社会福祉。

我深信这个未来，为了实现它并享受它，我们需要共同投资于 AGI 安全，并管理风险。如果我们不小心，一个不符合目标的 AGI 系统，可能会通过提供没有根据的建议，破坏整个医疗系统。同样地，一个旨在优化农业实践的 AGI 系统可能会由于缺乏对长期可持续性的考虑而无意中耗尽自然资源或破坏生态系统，影响食品生产和环境平衡。

我希望我们都能同意，推进 AGI 安全是我们最重要的领域之一。我想把我剩下的讲话重点放在我认为我们可以从哪里开始的地方。

一个领域是 AGI 治理，这是一项具有全球影响的技术。鲁莽开发和部署造成的事故成本将影响我们所有人。

三星新手机s22

在这方面，有两个关键要素:

首先，我们需要建立国际规范和标准，并通过包容的过程，在所有国家为 AGI 的使用制定平等统一的保护措施。在这些保护措施之内，我们相信人们有充分的机会做出自己的选择。

其次，我们需要国际合作来建立对日益强大的人工智能系统安全开发的全球信任，以可验证的方式。这不是一件容易的事情。我们需要作为国际社会投入持续而重要的关注，才能做好这件事。道德经提醒我们，千里之行始于足下。我们认为在这里采取最有建设性的第一步是与国际科技界合作。

特别是，我们应该促进增加透明度和知识共享的机制，关于 AGI 安全方面的技术进展。发现新出现安全问题的研究人员应该为了更大的利益分享他们的见解。我们需要认真考虑如何在尊重和保护知识产权权利的同时，鼓励这种规范。

如果我们做好了这一点，它将为我们打开新的大门，让我们能够加深合作。更广泛地说，我们应该投资、促进和引导对目标和安全研究的投资。

在 OpenAI，我们今天的目标研究主要集中在技术问题上，即如何让人工智能系统作为一个有用和安全的助手，在我们当前的系统中行动。这可能意味着，我们如何训练 ChatGPT，使它不会发出暴力威胁或协助用户进行有害活动。

但是随着我们更接近 AGI，任何不符合目标的潜在影响和程度都将呈指数增长。为了提前解决这些挑战，我们努力将未来灾难性结果的风险降到最低。对于当前系统，我们主要使用来自人类反馈的强化学习来训练我们的模型，使其作为一个有用和安全的助手行动。

这是后期训练目标技术中的一个例子，我们也在忙于开发新的技术。要做好这件事情需要很多艰苦的工程工作。从 GPT-4完成预训练到部署它，我们花了8个月的时间来做这件事。总的来说，我们认为我们在这方面走在了正确的轨道上。GPT-4比我们以前的任何模型都更符合目标。

然而，对于更先进的系统来说，目标仍然是一个未解决的问题，我们认为这需要新的技术方法，以及更多的治理和监督。想象一下，一个未来的 AGI 系统提出了10万行二进制代码。人类监督者不太可能检测到这样一个模型是否在做一些邪恶的事情。

所以我们正在投资一些新的和互补的研究方向，我们希望能够取得突破。一个是可扩展的监督。我们可以尝试使用人工智能系统来协助人类监督其他人工智能系统。例如，我们可以训练一个模型来帮助人类监督者发现其他模型输出中的缺陷。第二个是可解释性。我们想尝试更好地理解这些模型内部发生了什么。

我们最近发表了一篇论文，使用 GPT-4来解释 GPT-2中的神经元。在另一篇论文中，我们使用模型内部信息来检测模型何时在说谎。虽然我们还有很长的路要走，但我们相信先进的机器学习技术可以进一步提高我们产生解释的能力。

三星无线充电器可以给苹果充吗

最终，我们的目标是训练人工智能系统来帮助目标研究本身。这种方法的一个有希望的方面是，它随着人工智能发展的步伐而扩展。随着未来模型变得越来越聪明和有用作为助手，我们将找到更好的技术，实现 AGI 的非凡利益，同时减轻风险，是我们这个时代最重要的挑战之一。

以下为对话实录:

张宏江:我们离人工智能还有多远? 风险是不是很紧迫，还是我们离它还很遥远? 无论是安全的人工智能，还是潜在的不安全的人工智能。

Sam Altman :这个问题很难准确预测时间，因为它需要新的研究思路，而这些思路并不总是按照规定的日程来发展的。它可能很快就会发生，也可能需要更长的时间。我认为很难用任何程度的确定性来预测。但我确实认为，在未来十年内，我们可能会拥有非常强大的人工智能系统。在这样的世界里，我认为解决这个问题是重要而紧迫的，这就是为什么我呼吁国际社会共同合作来解决这个问题。历史上确实给我们提供了一些新技术比许多人想象的更快地改变世界的例子。我们现在看到的这些系统的影响和加速度，在某种意义上是前所未有的。所以我认为做好准备，让它尽快发生，并且解决好安全性方面的问题，考虑到它们的影响和重要性，是非常有意义的。

张宏江:你感觉到了一种紧迫感吗?

Sam Altman:是的，我感觉到了。我想强调一下，我们并不真正知道。而且人工智能的定义也不同，但是我认为在十年内，我们应该为一个拥有非常强大系统的世界做好准备。

张宏江:你在刚才的演讲中也提到了几次全球合作。我们知道世界在过去六七十年里面临过很多危机。不过对于其中的很多危机，我们设法建立了共识和全球合作。你也正在进行一次全球之旅。你正在推动什么样的全球合作? 你对目前收到的反馈感觉如何?

Sam Altman:是的，我对目前收到的反馈非常满意。我认为人们非常认真地对待人工智能带来的风险和机遇。我认为在过去六个月里，这方面的讨论已经有了很大进步。人们真正致力于找出一个框架，让我们能够享受这些好处，同时共同合作来减轻风险。我认为我们处于一个非常有利的位置来做这件事。全球合作总是很困难的，但我认为这是一种机会和威胁，可以让世界团结起来。我们可以制定一些框架和安全标准，来指导这些系统的开发，这将是非常有帮助的。

张宏江:在这个特定的话题上，你提到了高级人工智能系统的对齐是一个未解决的问题。我也注意到 OpenAI 在过去几年里投入了很多精力。你还提到了 GPT-4是对齐方面的最佳例子。你认为我们能否通过对齐来解决人工智能安全问题? 或者这个问题比对齐更大?

Sam Altman :我认为对齐这个词有不同的用法。我认为我们需要解决的是如何实现安全人工智能系统的整个挑战。对齐在传统意义上是指让模型按照用户的意图行事，这当然是其中的一部分。但我们还需要回答其他一些问题，比如我们如何验证系统是否做了我们想要它们做的事情，以及我们要根据谁的价值观来对齐系统。但我认为重要的是要看到实现安全人工智能所需要的全貌。

张宏江:是的，如果我们看看 GPT-4所做的事情，在很大程度上，它仍然是从技术角度来看的。但除了技术之外，还有许多其他因素。这是一个非常复杂的问题。通常复杂问题是系统性的。人工智能安全可能也不例外。除了技术方面之外，你认为还有哪些因素和问题对人工智能安全至关重要? 我们应该如何应对这些挑战? 特别是我们大多数人都是科学家，我们应该做什么?

Sam Altman:这当然是一个非常复杂的问题。我会说没有技术解决方案，其他一切都很难。我认为把很多精力放在确保我们解决了安全方面的技术问题上是非常重要的。正如我提到的，弄清楚我们要根据什么样的价值观来对齐系统，这不是一个技术问题。它需要技术输入，但它是一个需要全社会深入讨论的问题。我们必须设计出公平、有代表性和包容性的系统。而且，正如你指出的，我们不仅要考虑人工智能模型本身的安全性，还要考虑整个系统的安全性。所以建立安全分类器和检测器，可以在模型之上运行，可以监控使用策略的遵守情况，这也很重要。然后，我也认为很难提前预测任何技术会出现什么问题。所以从真实世界中学习和迭代地部署，看看当你把模型放到现实中时会发生什么，并改进它，并给人们和社会时间去学习和更新，并思考这些模型将如何以好的和坏的方式影响他们的生活。这也很重要。

张宏江:你刚才提到了全球合作。你已经访问了很多国家，你提到了中国。但你能否分享一些你在合作方面取得的成果? 你对下一步有什么计划或想法? 从这次世界之旅中，从你与各种政府、机构、机构之间的互动中?

Sam Altman:我认为通常需要很多不同的视角和人工智能安全。我们还没有得到所有的答案，这是一个相当困难和重要的问题。

此外，正如所提到的，这不是一个纯粹的技术问题，使人工智能安全和有益的。涉及在非常不同的背景下了解不同国家的用户偏好。我们需要很多不同的投入才能实现这一目标。中国拥有一些世界上最优秀的人工智能人才。从根本上说，我认为，考虑到解决高级人工智能系统对齐的困难，需要来自世界各地的最好的头脑。所以我真的希望中国的人工智能研究人员在这里做出巨大的贡献。

张宏江:我明白今天的论坛是关注 AI 安全的，因为人们对 OpenAI 很好奇，所以我有很多关于 OpenAI 的问题，不仅仅是 AI 安全。我这里有一个观众的问题是，OpenAI 有没有计划重新开源它的模型，就像在3.0版本之前那样? 我也认为开源有利于 AI 安全。

Sam Altman:我们有些模型是开源的，有些不是，但随着时间的推移，我认为你应该期待我们将来会继续开源更多的模型。我没有一个具体的模型或时间表，但这是我们目前正在讨论的事情。

张宏江:我们把所有的努力都投入到了开源中，包括模型本身、开发模型的算法、优化模型和数据之间关系的工具。我们相信有必要分享，并让用户感觉到他们控制了自己所使用的东西。你是否有类似的反馈? 或者这是你们在 OpenAI 中讨论的内容?

Sam Altman:是的，我认为开源在某种程度上确实有一个重要的作用。最近也有很多新的开源模型出现。我认为 API 模型也有一个重要的作用。它为我们提供了额外的安全控制。你可以阻止某些用途。你可以阻止某些类型的微调。如果某件事情不起作用，你可以收回它。在当前模型的规模下，我不太担心这个问题。但是随着模型变得像我们期望的那样强大，如果我们对此是正确的，我认为开源一切可能不是最佳路径，尽管有时候它是正确的。我认为我们只需要仔细地平衡一下。

张宏江:关于 GPT-4和 AI 安全方面的后续问题是，我们是否需要改变整个基础设施或整个 AGI 模型的架构，以使其更安全、更容易被检查? 你对此有什么想法?

Sam Altman:这肯定有可能，我们需要一些非常不同的架构，无论是从能力还是从安全性方面来看。我认为我们将能够在可解释性方面取得一些进展，在当前类型的模型上，并让它们更好地向我们解释它们在做什么以及为什么。但是，如果在变换器之后还有另一个巨大的飞跃，那也不会让我感到惊讶。而且实际上我们已经在原始的变换器之后，架构已经发生了很大的变化。

张宏江:作为一个研究人员，我也很好奇，下一步的 AGI 研究方向是什么? 在大模型、大语言模型方面，我们会不会很快看到 GPT-5? 下一个前沿是不是在具身模型上? 自主机器人是不是 OpenAI 正在或者准备探索的领域?

Sam Altman:我也很好奇下一步会发生什么，我最喜欢做这项工作的原因之一就是在研究的前沿，有很多令人兴奋和惊讶的事情。我们还没有答案，所以我们在探索很多可能的新范式。当然，在某个时候，我们会尝试做一个 GPT-5模型，但不会是很快。我们不知道具体什么时候。我们在 OpenAI 刚开始的时候就做过机器人方面的工作，我们对此非常感兴趣，但也遇到了一些困难。我希望有一天我们能够回到这个领域。

张宏江:听起来很棒。你在演讲中也提到了你们是如何用 GPT-4来解释 GPT-2的工作原理，从而使模型更安全的例子。这种方法是可扩展的吗? 这种方向是不是 OpenAI 未来会继续推进的?

Sam Altman:我们会继续推进这个方向。

小米手机查暗病代码

张宏江:那你认为这种方法可以应用到生物神经元上吗? 因为我问这个问题的原因是，有一些生物学家和神经科学家，他们想借鉴这个方法，在他们的领域里研究和探索人类神经元是如何工作的。

Sam Altman: 在人工神经元上观察发生了什么比在生物神经元上容易得多。所以我认为这种方法对于人工神经网络是有效的。我认为使用更强大的模型来帮助我们理解其他模型的方法是可行的。但我不太确定你怎么把这个方法应用到人类大脑上。

张宏江:好的，谢谢你。既然我们谈到了 AI 安全和 AGI 控制，那么我们一直在讨论的一个问题是，如果这个世界上只有三个模型，那么会不会更安全? 这就像核控制一样，你不想让核武器扩散。我们有这样的条约，我们试图控制能够获得这项技术的国家数量。那么控制模型数量是不是一个可行的方向?

Sam Altman:我认为对于世界上有少数模型还是多数模型更安全，有不同的观点。我认为更重要的是，我们是否有一个系统，能够让任何一个强大的模型都经过充分的安全测试? 我们是否有一个框架，能够让任何一个创造出足够强大的模型的人，既有资源，也有责任，来确保他们创造出的东西是安全和对齐的?

张宏江:昨天在这个会议上，MIT 未来生命研究所的 Max 教授提到了一种可能的方法，就是类似于我们控制药物开发的方式。科学家或者公司开发出新药，你不能直接上市。你必须经过这样的测试过程。这是不是我们可以借鉴的?

Sam Altman:我绝对认为，我们可以从不同行业发展出来的许可和测试框架中借鉴很多东西。但我认为从根本上说，我们已经有了一些可以奏效的方法。

张宏江:非常感谢你，Sam。谢谢你抽时间来参加这次会议，虽然是虚拟的。我相信还有很多问题，但考虑到时间，我们不得不到此为止。希望下次你有机会来中国，来北京，我们可以有更深入的讨论。非常感谢你。