MARL中的通信:一份学习地图
基于「Communication in Multi-Agent Reinforcement Learning」综述的学习笔记,帮你从零理解多智能体为什么需要通信、怎么通信、以及设计通信时要考虑什么。
这篇综述做了什么? 它不是提出一个新算法,而是给整个"MARL + 通信"领域画了一张地图。作者提出了一个 9维分类框架,从"谁在说话"、"说什么"、"什么时候说"、"怎么学"等维度,把现有几十篇论文归类整理。目标是让研究者(和我们学习者)快速定位:某篇工作在这张地图上处于什么位置,还有哪些空白值得探索。
本笔记不逐条复述论文,而是抓出 6条核心机制链路,配上生活类比和极简例子,帮你建立直觉。
章节导航
1
非平稳性与MARL基础
什么是多智能体强化学习?为什么"队友在变"会让训练炸掉?部分可观测又意味着什么?
2
CTDE范式:集中训练、分散执行
Centralized critic 能做什么、不能做什么?它为什么不能替代通信?
3
通信的三层作用
信息层、结构层、优化层 — 通信不只是"传消息",它在改变策略函数的形状。
4
代理通信与带宽限制
Proxy hub vs P2P、bit vs token、低带宽下"说什么最值钱"。
5
对称性与角色分工
为什么仅靠随机打破对称不够?通信如何实现稳定的动态角色协商?
6
终极总结
通信的本质不是"多传信息",而是引入可学习的信息流结构。
阅读建议:建议按顺序阅读。每页开头有核心概括,每个概念有生活类比和双智能体极简例子。每节末有自测题,可以边读边验证理解。