CTDE范式：集中训练、分散执行

在多智能体系统中，如何让群体既能在训练时“全知全能”，又能在实战中“独当一面”？集中训练在实验或仿真环境下，利用全局状态信息指导智能体学习的方法。与分散执行在部署阶段，每个智能体仅依靠自己的局部观测做出决策的过程。（CTDE）正是解决这一矛盾的核心架构。

核心定义：什么是 CTDE？

CTDE（Centralized Training Decentralized Execution）是一种主流的学习架构。它允许我们在算法“闭关修炼”时提供额外的信息支持（如队友的状态、全局地图、对手的动作），但在“出山实战”时，要求每个智能体必须仅凭自己的眼睛（局部观测）做出反应。

生活类比足球队的复盘与实战。在**集中训练**阶段，教练可以暂停录像，从上帝视角分析每个球员的跑位。但在**分散执行**的正式比赛中，球员必须在视野有限的场上独立判断，无法随时听取看台上的战术分析。

双智能体案例在无人机协同搜索任务中，**训练时**服务器可以获取所有无人机的实时坐标。**执行时**，每架无人机只能根据自己的载机雷达信号判断环境，并尝试猜测队友的位置。

Actor 与 Critic 的分工：上帝与执行者

CTDE 成功的关键在于解耦了 Actor执行者，即策略网络，负责将观测映射为具体的动作。和 Critic评价者，即价值网络，负责评估当前状态或动作的好坏。。

Actor（分散式）： 每个代理都有自己的策略网络，输入是局部观测 $o_i$，输出是动作 $a_i$。它是执行阶段的唯一核心。
Critic（集中式）： 训练器拥有一个（或一组）强大的评价网络，输入是全局状态 $S$ 和所有人的动作 $\mathbf{a}$。它只负责在训练时给 Actor 打分。

生活类比电影制作。导演（Critic）在监视器后看着全局画面，指导演员（Actor）如何走位。电影上映（执行）时，观众只能看到演员的表现，导演并不会出现在银幕上左右演员的动作。

架构对比：训练与执行的鸿沟

集中式 Critic 的核心意义在于：它解决了非平稳性问题。因为它在评估 Actor A 的表现时，能看到 Actor B 此时正在做什么，从而把“环境的变化”归因于“队友的动作”，让反馈信号变得稳定。

信用分配：谁是真正的功臣？

当团队获得总分奖励时，信用分配判断每个智能体对团队最终奖励的具体贡献份额。是 MARL 的终极难题。集中式 Critic 就像一个公正的审计员，它分析全局数据，辨别出谁在“摸鱼”，谁在“Carry”。

双智能体案例在塔防游戏中，A 负责减速敌军，B 负责输出伤害。如果没有集中式 Critic，B 可能会认为全是自己的功劳（因为击杀数高），而 A 会感到困惑。集中式 Critic 能识别出：正是 A 的控制才让 B 的输出成为可能，从而给 A 发放更高的隐含奖励。

为什么集中式 Critic 不能代替通信？

这是一个常见的误区：既然 Critic 已经知道了全局信息并教导了 Actor，那 Actor 还需要通信吗？答案是肯定的，因为存在以下两个致命缺口：

存在时间差： 执行阶段 Critic 根本不在场。Actor 的逻辑判断必须在瞬间完成，它没有上帝视角的回放可以参考。
信息结构不变： Critic 的作用只是改进了 Actor 的参数（大脑），但并没有改变 Actor 的输入。如果 A 看不到掩体后的 B，无论 Critic 怎么训练它，A 在执行时依然看不到 B。

通信的本质作用是改变 Actor 的输入。它将原本只有 $o_i$ 的决策输入，扩展为 $(o_i, m_j)$（自己的观测 + 队友的消息）。这种感知能力的物理性提升，是单纯靠参数优化无法弥补的。

🎯 知识自测

1. 在 CTDE 范式中，哪个组件仅在训练阶段使用，而在执行阶段被移除？

答案：集中式 Critic (Centralized Critic)。执行阶段只保留每个代理的 Actor（策略网络）。

2. 集中式 Critic 如何解决“非平稳性”带来的训练波动？

答案：通过在打分时引入全局状态和所有人的动作。这样当环境发生变化时，Critic 能识别出这是由于其他智能体的行为导致的，而不是单纯的随机噪声或不可靠的局部观测。

3. 即使有了完美的集中式 Critic，智能体在执行阶段可能面临的最大挑战是什么？

答案：局部观测受限（信息不完全）。因为执行阶段没有 Critic 的上帝视角，如果环境存在严重的局部遮挡或动态干扰，智能体依然需要通过通信来同步信息。