博弈论基础

Basic Game Theory

1960年代初，美苏两个超级大国各自拥有数以千计的核弹头，足以把对方——以及整个人类文明——摧毁好几遍。按照常识，这应该是人类历史上最危险的时刻。但一个反直觉的事实是：正是因为双方都有能力毁灭对方，所以谁也不敢先动手。

这个逻辑有一个正式的名字：确保相互毁灭（Mutually Assured Destruction，缩写恰好是MAD——疯狂）。它不是某个将军的灵感，而是一群数学家——包括约翰·冯·诺伊曼和兰德公司的策略分析师们——用博弈论推导出来的。

核威慑的逻辑是博弈论最极端也最深刻的应用之一。它揭示了一个我们在日常生活中不断遇到的根本问题：你的最优决策，取决于对手会怎么做。而对手的最优决策，取决于他认为你会怎么做。 这种相互缠绕的决策逻辑，就是博弈论的核心。

芒格虽然很少在公开场合系统地谈论博弈论，但他的商业判断中处处渗透着博弈思维。他反复警告不要参与价格战，不要进入竞争对手都是“疯子”的行业，要寻找竞争结构对自己有利的商业生态——这些判断的底层逻辑，都是博弈论。

§ 01

博弈论的核心机制

博弈论的本质是研究理性决策者之间的策略互动。它和传统决策理论的区别在于：传统决策理论假设你面对的是“自然”（天气、市场波动等不会对你的行为做出反应的环境），而博弈论假设你面对的是另一个有策略、有目标、会根据你的行动调整自己行动的人。下棋和掷骰子的根本区别就在于此。

核心概念包含几个层次。

第一，参与者、策略和收益。 每个博弈都有参与者（players）、每个参与者可选的策略集合（strategies）和每种策略组合下每个人的收益（payoffs）。很多人在商业竞争中犯错，恰恰是因为没有正确识别参与者——他们以为只和直接竞争对手博弈，忽略了供应商、监管者和潜在进入者也是博弈的参与者。

第二，纳什均衡。 1950年，21岁的普林斯顿数学博士生约翰·纳什在27页的博士论文中提出了一个改变世界的概念：当每一个参与者都在给定其他人策略的情况下选择了自己的最优策略时，这个状态就是稳定的——没有人有单方面改变策略的动机。 这就是纳什均衡。

用一个直觉的例子。一个小镇上有两家超市，需要各自决定开在哪里。你可能觉得最“合理”的结果是一家开在主街的四分之一处，另一家开在四分之三处，各覆盖一半居民。但这不是纳什均衡——开在四分之一处的那家有动机往中间挪来抢走更多客户。最终的纳什均衡是两家都挤在正中间。这就是“霍特林模型”，它解释了为什么快餐店总是扎堆、加油站喜欢开在马路对面、政治候选人向中间靠拢。

第三，零和博弈与正和博弈。 零和博弈中一方的收益完全来自另一方的损失。正和博弈中所有参与者可以共同创造更多价值。这个区分至关重要，因为大多数人把商业当成零和博弈来玩，而最成功的企业家把商业当成正和博弈来玩。芒格和巴菲特的收购哲学就是正和博弈的典范——他们给出公平的价格，提供永久持有的承诺，赋予被收购公司管理层充分的自主权。结果是最好的企业主动找上门来。

§ 02

囚徒困境：理性如何导致愚蠢

博弈论最著名的故事始于1950年。两个嫌疑犯被分开审讯。每个人面前有两个选择：认罪（背叛同伴）或不认罪（合作）。如果两人都不认罪，各判一年。如果两人都认罪，各判五年。如果一个认罪一个不认罪，认罪的释放，不认罪的判十年。

无论对手怎么做，你认罪都是更好的策略。但对手也在做同样的推理。结果两个人都认罪，各判五年。每个人都做出了对自己最优的理性决策，但集体结果却对所有人都糟糕。

1999年，美国航空业正在经历一场集体自杀。每一家航空公司都在疯狂降价，结果没有一家抢到更多份额——所有人的利润都蒸发了。一位航空业高管后来感慨：“我们每个人都知道降价是自杀，但每个人都觉得如果自己不降价，就会先被竞争对手杀死。”

芒格对此有切身体会：

“The worst sort of business is one that grows rapidly, requires significant capital to engender the growth, and then earns little or no money.”
“最糟糕的生意是那种增长迅速、需要大量资本来支撑增长、然后几乎赚不到钱的生意。”

航空业的问题不在于需求不足——人们总是需要飞——而在于竞争结构是一个多方囚徒困境，任何一家的降价都逼迫其他人跟随。

§ 03

重复博弈：合作如何从自私中涌现

如果博弈论到囚徒困境就结束了，它给出的信息是令人绝望的。但现实世界中合作显然是存在的。答案在于“重复”。

1984年，密歇根大学政治学家罗伯特·阿克塞尔罗德邀请世界各地的博弈论专家提交计算机程序，参加一场重复囚徒困境锦标赛。获胜的策略来自心理学家阿纳托尔·拉波波特，极其简单，只有四行代码：“以牙还牙”（Tit for Tat）——第一轮选择合作；之后每一轮复制对手上一轮的选择。

这个策略在两场锦标赛中都拿了冠军。阿克塞尔罗德分析了它成功的四个特征：

1. 善良（Nice）：永远不先背叛。
2. 报复（Retaliatory）：面对背叛立即还击。
3. 宽容（Forgiving）：对手回到合作后，立即恢复合作。
4. 清晰（Clear）：策略简单透明，对手能够预测你的行为。

这四个特征几乎就是芒格商业哲学的翻版。他和巴菲特以诚信著称（善良），但如果有人试图欺骗他们，会果断反击（报复）。他们不会永远记仇（宽容），行为模式极其透明可预测（清晰）。

重复博弈的核心洞见是：当博弈有未来时，合作变得理性。 你不骗对手，不是因为你善良，而是因为你明天还要和他做生意，今天的背叛会让你失去明天合作的收益。这种“未来的影子”（Shadow of the Future）是维持合作的关键力量。

§ 04

OPEC：一场正在进行的博弈

要看博弈论在真实世界中的运作，没有比石油输出国组织（OPEC）更好的案例了。OPEC本质上是一个卡特尔——一群产油国达成协议，共同限制产量以维持高油价。但每个成员国都面临囚徒困境式的诱惑：如果其他人都遵守配额而你偷偷多产，你就能以高价卖出更多石油。

结果就是OPEC历史上反复出现的剧本：减产协议达成——油价上涨——某些国家偷偷超产——油价回落——更多国家跟着超产——油价暴跌——各方重新坐下来谈判。

2014年的经典案例中，沙特阿拉伯选择了“惩罚”策略——全力生产以挤压高成本的页岩油生产商。油价从110美元暴跌到30美元以下。两年后，各方伤痕累累，终于达成新协议。

§ 05

改变博弈结构：芒格的元博弈思维

如果囚徒困境是大多数人面临的困境，那芒格的天才在于他选择了完全不同的应对方式——他选择不进入那些天然是囚徒困境的博弈。

航空业是囚徒困境？不投。大宗商品行业是价格战的永恒泥潭？不碰。芒格寻找的是博弈结构天然对参与者有利的行业：

垄断或寡头垄断。 只有两三个参与者的市场中，合作远比竞争更容易实现。可口可乐和百事可乐几乎从不打真正的价格战——它们的博弈结构是双头垄断，双方都知道价格战的纳什均衡是双输。

有强大护城河（Moat）的企业。 护城河本质上改变了博弈结构——进入者面临极高的成本，博弈的天平天然向你倾斜。

正和博弈领域。 伯克希尔的保险业务不是通过压低竞争对手来获胜，而是通过更好的风险定价和更强的资本实力来创造价值。

芒格的策略可以用博弈论精确描述：他不是在给定的博弈中寻找最优策略，他是在所有可能的博弈中选择那些纳什均衡对他最有利的博弈。 这是一种元博弈（meta-game）思维——在选择“玩哪个游戏”的层面上做优化，而不是在“怎么玩”的层面上做优化。

这和他反复强调的一个原则完全一致：“我们不试图跨越七英尺高的栏杆。我们寻找一英尺高的栏杆，然后跨过去。”翻译成博弈论的语言：不要在困难的博弈中拼命——去找一个容易的博弈。

§ 06

为什么芒格说“不要跟疯子打价格战”

“We don't want to compete against people who are nuts.”
“我们不想跟疯子竞争。”

博弈论解释了为什么这条建议如此重要。在标准博弈论中，所有参与者被假设为理性的。但如果你的对手不理性呢？一家由亿万富翁创始人控制的公司，他不在乎利润只在乎市场份额；国家补贴支撑的企业；拿着风投烧钱追求增长的创业公司；被自尊心驱动宁可两败俱伤也不认输的创始人。

面对这样的对手，博弈论的最优策略不是“找到更好的应对方案”——而是“不进入这个博弈”。这不是胆怯，而是博弈论级别的战略清醒。

§ 07

反直觉与边界

第一，纳什均衡不意味着好结果。 很多人误以为“均衡”意味着“最优”。不是。囚徒困境中双方都背叛就是纳什均衡，但对双方都不好。均衡只意味着“稳定”——稳定的状态可以是所有人都在泥潭里。

第二，现实中很少有纯粹的博弈。 真实的商业竞争不是两个玩家在一张收益矩阵前做选择。参与者很多、信息不完全、博弈规则会改变、外部环境在演化。博弈论提供的是思考框架而非精确预测。

第三，承诺和信号比策略更重要。 在很多博弈中，你能做的最有力的事不是选择一个好策略，而是让对手相信你会采取某个策略。沃尔玛以“天天低价”著称，这本质上是一个博弈论中的“承诺装置”——通过主动限制自己的策略空间，反而获得了博弈优势。

第四，假设对手完全理性是危险的。 博弈论的经典模型假设所有参与者都是理性的，但现实中对手可能是非理性的、情绪驱动的。芒格对人类心理学的深刻理解正是对纯博弈论的重要补充。

第五，过度博弈化思维有害。 不是所有互动都需要用博弈论分析。和家人的关系、与员工的信任——如果用“策略互动”的眼光看待一切人际关系，你会变成一个令人讨厌的精算师。

第六，博弈的演化不可忽视。 现实中的博弈不是静态的。参与者会学习、会适应。一个第一年有效的竞争策略，到第三年可能完全失效。芒格知道企业的护城河（Moat）可能被侵蚀，今天的纳什均衡明天可能不再成立。

§ 08

如何在日常决策中运用博弈思维

投资决策

1. 分析行业的博弈结构。 这个行业是零和博弈还是正和博弈？参与者有多少？纳什均衡是高利润还是低利润？如果行业的博弈结构天然导向低利润均衡，就远离它。
2. 寻找“不对称博弈”。 最好的投资标的是那些在博弈中拥有结构性优势的企业——更低的成本、更强的品牌、更高的转换成本。
3. 关注博弈从竞争到合作的转折点。 当一个行业从多家混战整合为少数寡头时，合作变得更容易，利润率往往大幅提升。这是极佳的投资窗口。

商业竞争

1. 避免打别人的游戏。 不要自动回应价格战。问自己：有没有办法改变博弈的维度——转向服务竞争、品质竞争或创新竞争？
2. 建立承诺机制。 通过公开承诺和实际行动建立可信的威慑。
3. 寻找正和博弈的机会。 联合研发、行业标准制定、共享基础设施——这些都是把零和博弈转化为正和博弈的途径。

人际关系

1. 默认合作。 首先选择信任和合作。但如果对方背叛，迅速且明确地回应。然后给对方回归合作的机会。
2. 选择长期博弈的圈子。 芒格更愿意和那些把互动视为无限重复博弈的人合作——这些人珍惜声誉、看重长期关系。

§ 09

选择你的博弈

博弈论的核心洞察既简单又深刻：你的最优策略取决于别人在做什么。

但芒格用半个世纪的投资生涯证明了一个更深层的洞察：你不必接受你被放进去的博弈。你可以选择不参与那些注定是囚徒困境的竞争。你可以寻找博弈结构天然对你有利的领域。你可以通过建立声誉和长期关系，把一次性博弈转化为重复博弈。

人生不是一场被动参与的博弈。人生是一系列关于“玩哪个游戏”的选择。在一个充满囚徒困境的世界里，最高级的策略不是在困境中找到最优解，而是走到囚徒困境的外面去。

§ 10

芒格原话