CTDE范式:集中训练、分散执行

在多智能体系统中,如何让群体既能在训练时“全知全能”,又能在实战中“独当一面”? 集中训练在实验或仿真环境下,利用全局状态信息指导智能体学习的方法。分散执行在部署阶段,每个智能体仅依靠自己的局部观测做出决策的过程。 (CTDE)正是解决这一矛盾的核心架构。

核心定义:什么是 CTDE?

CTDE(Centralized Training Decentralized Execution)是一种主流的学习架构。它允许我们在算法“闭关修炼”时提供额外的信息支持(如队友的状态、全局地图、对手的动作),但在“出山实战”时,要求每个智能体必须仅凭自己的眼睛(局部观测)做出反应。

生活类比 足球队的复盘与实战。在**集中训练**阶段,教练可以暂停录像,从上帝视角分析每个球员的跑位。但在**分散执行**的正式比赛中,球员必须在视野有限的场上独立判断,无法随时听取看台上的战术分析。
双智能体案例 在无人机协同搜索任务中,**训练时**服务器可以获取所有无人机的实时坐标。**执行时**,每架无人机只能根据自己的载机雷达信号判断环境,并尝试猜测队友的位置。
Actor 与 Critic 的分工:上帝与执行者

CTDE 成功的关键在于解耦了 Actor执行者,即策略网络,负责将观测映射为具体的动作。Critic评价者,即价值网络,负责评估当前状态或动作的好坏。

  • Actor(分散式): 每个代理都有自己的策略网络,输入是局部观测 $o_i$,输出是动作 $a_i$。它是执行阶段的唯一核心。
  • Critic(集中式): 训练器拥有一个(或一组)强大的评价网络,输入是全局状态 $S$ 和所有人的动作 $\mathbf{a}$。它只负责在训练时给 Actor 打分。
生活类比 电影制作。导演(Critic)在监视器后看着全局画面,指导演员(Actor)如何走位。电影上映(执行)时,观众只能看到演员的表现,导演并不会出现在银幕上左右演员的动作。
架构对比:训练与执行的鸿沟
集中训练阶段 (Training) Actor A Actor B Centralized Critic 全局信息辅助打分 分散执行阶段 (Execution) Actor A Actor B CRITIC REMOVED 信息孤岛:仅靠局部观测

集中式 Critic 的核心意义在于:它解决了非平稳性问题。因为它在评估 Actor A 的表现时,能看到 Actor B 此时正在做什么,从而把“环境的变化”归因于“队友的动作”,让反馈信号变得稳定。

信用分配:谁是真正的功臣?

当团队获得总分奖励时, 信用分配判断每个智能体对团队最终奖励的具体贡献份额。 是 MARL 的终极难题。集中式 Critic 就像一个公正的审计员,它分析全局数据,辨别出谁在“摸鱼”,谁在“Carry”。

双智能体案例 在塔防游戏中,A 负责减速敌军,B 负责输出伤害。如果没有集中式 Critic,B 可能会认为全是自己的功劳(因为击杀数高),而 A 会感到困惑。集中式 Critic 能识别出:正是 A 的控制才让 B 的输出成为可能,从而给 A 发放更高的隐含奖励。
为什么集中式 Critic 不能代替通信?

这是一个常见的误区:既然 Critic 已经知道了全局信息并教导了 Actor,那 Actor 还需要通信吗?答案是肯定的,因为存在以下两个致命缺口:

  1. 存在时间差: 执行阶段 Critic 根本不在场。Actor 的逻辑判断必须在瞬间完成,它没有上帝视角的回放可以参考。
  2. 信息结构不变: Critic 的作用只是改进了 Actor 的参数(大脑),但并没有改变 Actor 的输入。如果 A 看不到掩体后的 B,无论 Critic 怎么训练它,A 在执行时依然看不到 B。

通信的本质作用是改变 Actor 的输入。它将原本只有 $o_i$ 的决策输入,扩展为 $(o_i, m_j)$(自己的观测 + 队友的消息)。这种感知能力的物理性提升,是单纯靠参数优化无法弥补的。

🎯 知识自测

1. 在 CTDE 范式中,哪个组件仅在训练阶段使用,而在执行阶段被移除?
答案:集中式 Critic (Centralized Critic)。执行阶段只保留每个代理的 Actor(策略网络)。
2. 集中式 Critic 如何解决“非平稳性”带来的训练波动?
答案:通过在打分时引入全局状态和所有人的动作。这样当环境发生变化时,Critic 能识别出这是由于其他智能体的行为导致的,而不是单纯的随机噪声或不可靠的局部观测。
3. 即使有了完美的集中式 Critic,智能体在执行阶段可能面临的最大挑战是什么?
答案:局部观测受限(信息不完全)。因为执行阶段没有 Critic 的上帝视角,如果环境存在严重的局部遮挡或动态干扰,智能体依然需要通过通信来同步信息。