声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。
【新智元导读】AI可控核聚变新突破!DeepMind最新研究用RL算法,将等离子体形状精度提升65%,为「人造太阳」精准放电指明道路。
AI可控核聚变,指日可待。
秘密研发3年,DeepMind去年宣称,首次成功用AI控制「托卡马克」内部等离子体。其重磅成果登上Nature。
时隔一年,谷歌AI团队在这一领域再次取得突破。
最新实验模拟中,将等离子体形状精度提高了65%。
DeepMind团队基于上次的研究,对智能体架构和训练过程提出了算法改进。
研究发现,等离子形状精度提高的同时,还降低了电流的稳态误差。
甚至,学习新任务所需的训练时间减少了3倍还要多。
论文地址:https://arxiv.org/pdf/2307.11546.pdf
从「星际争霸」AI碾压人类,到AlphaGo大战李世石、AI预测蛋白质折叠,DeepMind已经将人工智能算法深入到了足以改世界的不同领域。
这次,DeepMind最细实验模拟结果,为RL实现精确放电指明了道路。
这一里程碑式的成果,标志着「人造太阳」可控放电离人类终极能源的未来又进了一步。
RL揭开核聚变奥秘
了解一下什么是chatgpt
一旦人类掌握了可控核聚变能,将可拥有无穷不尽的清洁能源。
要知道,反馈控制对于「托卡马克装置」的运行至关重要。
而控制系统会主动管理磁线圈,以控制拉长离子体的不稳定性,防止破坏性的垂直事件发生。
此外,人类若能实现对等离子体电流、位置和形状的精确控制,还可以实现热排放,甚至对其能量的管理。
一直以来,科学家们致力于研究等离子体配置变化对这些相关量的影响。因此就需要能够用于新配置,以及围绕标称场景快速变化的系统。
传统上,等离子体的精确控制是通过等离子体电流、形状和位置的连续闭环来实现的。
在这种模式下,控制设计者预先计算出一组前馈线圈电流,然后为每个受控量建立反馈回路。等离子体形状和位置无法直接测量,必须通过磁场测量实时间接估算。
尤其是等离子体的形状,必须使用平衡重构代码进行实时估算。
虽然这类系统已成功稳定了大范围的放电,但其设计不仅具有挑战性,还耗时,特别是针对新型等离子体情况。
值得一体的是,强化学习(RL)已成为构建实时控制系统的另一种全新范式。
2022年,DeepMind团队登上Nature的一篇论文表明,RL设计的系统能够成功实现「托卡马克磁控制」的主要功能。
论文地址:https://www.nature.com/articles/s41586-021-04301-9
这项工作提出了一个系统,RL智能体通过与FGE 托卡马克模拟器交互,学习控制托卡马克配置变量(TCV)。
智能体学习的控制策略随后被集成到TCV控制系统中,通过观察TCV的磁场测量,并为所有19个磁控线圈输出控制指令。
尤其,研究人员展示了RL智能体控制各种情况的能力,包括高度拉长的等离子体、雪花。
甚至还展示了同时在真空室中,使用两个独立等离子体稳定「液滴 」配置的新方法。
AI控制下生成的几种不同等离子几何形状
但是,RL方法有许多缺点,限制了其作为控制托卡马克等离子体的实用解决方案的应用。
最新研究中,DeepMind决定要解决三个挑战:
- 指定一个既可学习又能激发精确控制器性能的标量奖励函数
网易严选用户量
- 追踪误差的稳态误差
- 较长的训练时间
首先,团队提出了「奖励塑形」的方法,以提高控制精度。
然后,通过向智能体提供明确的错误信号,和集成错误信号来解决积分器反馈中的稳态误差问题。这缩小了经典控制器和强化学习控制器之间的精度差距。
最后,在片段分块和迁移学习中,解决了生成控制策略所需的训练时间问题。
研究人员针对复杂的放电情况采用了多重启动方法,使得训练时间大幅缩减。
此外,研究还表明,当相关新情景与之前的情景接近时,使用现有控制策略进行热启动训练,是一种非常有效的工具。
总之,这些技术大大缩短了训练时间,提高了精确度,从而使RL成为等离子体控制的常规可用技术取得了长足进步。
强化学习控制等离子体
最新论文中,研究人员采用与Nature那篇论文相同的基本实验。
RL通过与模拟环境的交互,学习特定实验的控制策略