非平稳性与MARL基础

多智能体强化学习的核心挑战不在于单一代理的复杂度，而在于代理之间动态交互产生的非平稳性。理解这一本质是掌握通信、协作与 CTDE 范式的必经之路。

多智能体强化学习 (MARL)

MARLMulti-Agent Reinforcement Learning，多个学习主体在共享环境中通过奖励机制进行演化的技术框架是由多个独立的智能体在同一个共享环境中同时学习。这不仅仅是“多个单体强化学习”的简单堆叠，因为代理之间的行为相互耦合。每个代理的目标是最大化自己的累积回报，但在达成目标的过程中，它必须应对其他代理带来的不确定性。

生活类比： 就像一场多人厨艺挑战赛，你不仅要管好自己的灶台火候，还要随时防备队友突然伸过来的铲子，或者由于队友提前用光了食盐而不得不临时调整你的菜谱。

双智能体案例： 两个机器人 A 和 B 在仓库中搬运重物。A 向左走会影响重心的平衡，迫使 B 必须做出相应的姿态补偿。如果 A 改变了搬运节奏，B 之前学到的所有平衡动作可能都会瞬间失效。

部分可观测 (Partial Observability)

在现实的分布式系统中，每个代理通常只能获得部分可观测 (Partial Observability)个体由于感知范围或传感器限制，只能获取全局状态的一个子集信息。这意味着决策必须基于不完整的上下文，代理往往不知道全局状态，甚至不知道队友的具体动作和意图。

生活类比： 想象你在迷雾森林中玩捉迷藏，你只能看清周围五米的景物。虽然你听到了远处的树枝断裂声，但你无法确定那是队友在包抄还是敌人在埋伏。

场景应用： 无人驾驶车队中，当前车因为前方遮挡物突然刹车时，后方车辆无法直接观察到最前方的障碍。如果不通过通信告知，后车只能通过前车的刹车灯这一局部观测来猜测意图。

非平稳性 (Non-stationarity)

非平稳 (Non-stationarity)由于环境中其他学习者策略不断演进，导致个体观测到的环境转换概率和奖励分布随时间发生漂移是 MARL 训练中最棘手的问题。在单智能体 RL 中，环境是静止的（Stationary）；但在多智能体中，当 Agent A 在学习时，它的行为模式（策略 Policy从观测状态到执行动作的映射规则）在变。对于 Agent B 而言，这种变化导致即便它执行同样的动作，获得的回报 (Reward)环境反馈给个体的数值化评价指标也会随时间漂移。

生活类比： 就像在流沙之上盖房子。你正在努力加固地基，但沙子本身在不断流动。你刚才觉得“牢固”的砖块，一秒钟后就掉进了空隙里。

动态演化： 在足球机器人训练中，前锋 A 学会了从左路突破。防守者 B 察觉后开始重点盯防左路。此时 A 原本高效的“左路突破”动作回报骤减。A 必须抛弃旧策略，转而学习右路突破。这种循环往复的策略漂移让网络极难收敛。

核心结论： 非平稳性是 MARL 一切算法设计的起点。无论是引入中心化评价（Centralized Critic），还是通过显式通信共享观测，其本质都是为了在变动的环境中寻找一份“确定的参考系”。

🧪 自测：你真的理解了吗？

Q1: 为什么传统的单智能体算法（如基础 Q-Learning）直接用于 MARL 往往会失效？

因为环境变得“非平稳”。单智能体算法假设环境的转换概率和奖励分布是静态的（Stationary），但在 MARL 中，其他代理也在学习，这相当于环境的地基在不断晃动。算法无法区分奖励的下降是因为“自己做错了”还是“队友变了”。

Q2: “部分可观测”给代理间的协作带来了什么具体困难？

缺乏全局视野意味着代理无法确定队友的行为是因为“观测到了我没看到的威胁”还是单纯的“随机探索”，这导致难以达成共识，容易出现动作冲突（如两人抢同一颗球）。

Q3: 非平稳性与本笔记重点讨论的“通信”有什么逻辑关联？

通信是缓解非平稳性的直接手段。通过共享观测或意图，代理可以将原本“不可见的环境变量”（即队友的意图）转化为“可见的观测输入”，从而让非平稳的环境在特定视角下变得相对稳定。

首页 CTDE范式