CTDE范式:集中训练、分散执行
在多智能体系统中,如何让群体既能在训练时“全知全能”,又能在实战中“独当一面”? 集中训练在实验或仿真环境下,利用全局状态信息指导智能体学习的方法。 与 分散执行在部署阶段,每个智能体仅依靠自己的局部观测做出决策的过程。 (CTDE)正是解决这一矛盾的核心架构。
核心定义:什么是 CTDE?
CTDE(Centralized Training Decentralized Execution)是一种主流的学习架构。它允许我们在算法“闭关修炼”时提供额外的信息支持(如队友的状态、全局地图、对手的动作),但在“出山实战”时,要求每个智能体必须仅凭自己的眼睛(局部观测)做出反应。
Actor 与 Critic 的分工:上帝与执行者
CTDE 成功的关键在于解耦了 Actor执行者,即策略网络,负责将观测映射为具体的动作。 和 Critic评价者,即价值网络,负责评估当前状态或动作的好坏。。
- Actor(分散式): 每个代理都有自己的策略网络,输入是局部观测 $o_i$,输出是动作 $a_i$。它是执行阶段的唯一核心。
- Critic(集中式): 训练器拥有一个(或一组)强大的评价网络,输入是全局状态 $S$ 和所有人的动作 $\mathbf{a}$。它只负责在训练时给 Actor 打分。
架构对比:训练与执行的鸿沟
集中式 Critic 的核心意义在于:它解决了非平稳性问题。因为它在评估 Actor A 的表现时,能看到 Actor B 此时正在做什么,从而把“环境的变化”归因于“队友的动作”,让反馈信号变得稳定。
信用分配:谁是真正的功臣?
当团队获得总分奖励时, 信用分配判断每个智能体对团队最终奖励的具体贡献份额。 是 MARL 的终极难题。集中式 Critic 就像一个公正的审计员,它分析全局数据,辨别出谁在“摸鱼”,谁在“Carry”。
为什么集中式 Critic 不能代替通信?
这是一个常见的误区:既然 Critic 已经知道了全局信息并教导了 Actor,那 Actor 还需要通信吗?答案是肯定的,因为存在以下两个致命缺口:
- 存在时间差: 执行阶段 Critic 根本不在场。Actor 的逻辑判断必须在瞬间完成,它没有上帝视角的回放可以参考。
- 信息结构不变: Critic 的作用只是改进了 Actor 的参数(大脑),但并没有改变 Actor 的输入。如果 A 看不到掩体后的 B,无论 Critic 怎么训练它,A 在执行时依然看不到 B。
通信的本质作用是改变 Actor 的输入。它将原本只有 $o_i$ 的决策输入,扩展为 $(o_i, m_j)$(自己的观测 + 队友的消息)。这种感知能力的物理性提升,是单纯靠参数优化无法弥补的。