MARL中的通信：一份学习地图

基于「Communication in Multi-Agent Reinforcement Learning」综述的学习笔记，帮你从零理解多智能体为什么需要通信、怎么通信、以及设计通信时要考虑什么。

这篇综述做了什么？ 它不是提出一个新算法，而是给整个"MARL + 通信"领域画了一张地图。作者提出了一个 9维分类框架，从"谁在说话"、"说什么"、"什么时候说"、"怎么学"等维度，把现有几十篇论文归类整理。目标是让研究者（和我们学习者）快速定位：某篇工作在这张地图上处于什么位置，还有哪些空白值得探索。

本笔记不逐条复述论文，而是抓出 6条核心机制链路，配上生活类比和极简例子，帮你建立直觉。

章节导航

非平稳性与MARL基础

什么是多智能体强化学习？为什么"队友在变"会让训练炸掉？部分可观测又意味着什么？

CTDE范式：集中训练、分散执行

Centralized critic 能做什么、不能做什么？它为什么不能替代通信？

通信的三层作用

信息层、结构层、优化层 — 通信不只是"传消息"，它在改变策略函数的形状。

代理通信与带宽限制

Proxy hub vs P2P、bit vs token、低带宽下"说什么最值钱"。

对称性与角色分工

为什么仅靠随机打破对称不够？通信如何实现稳定的动态角色协商？

终极总结

通信的本质不是"多传信息"，而是引入可学习的信息流结构。

阅读建议：建议按顺序阅读。每页开头有核心概括，每个概念有生活类比和双智能体极简例子。每节末有自测题，可以边读边验证理解。