正态与非正态分布

# 正态与非正态分布

Normal & Non-Normal Distributions

1998年秋天，一群地球上最聪明的人创办的基金差点炸掉了全球金融系统。

长期资本管理公司（LTCM）的合伙人阵容堪称梦之队：两位诺贝尔经济学奖得主迈伦·斯科尔斯和罗伯特·默顿，前美联储副主席戴维·马林斯，华尔街传奇交易员约翰·梅里韦瑟。他们用最先进的数学模型，在全球债券市场上做套利交易。

前四年，他们的业绩惊人：年化收益率超过40%，几乎没有回撤。模型说这种策略每年亏损超过基金净值20%的概率小于10的负9次方——也就是说，大概每十亿年才会发生一次。

1998年8月，俄罗斯政府宣布债务违约。接下来的几天里，那个“十亿年一遇”的事件发生了。LTCM在不到四个月里亏损了46亿美元，只差几天就要破产。美联储不得不紧急组织华尔街14家大银行联合注资救助——不是为了救LTCM，而是因为LTCM的衍生品头寸大到如果它崩溃，整个金融系统都要跟着一起倒。

这场灾难的根源不是数学不够好，恰恰相反——数学太“好”了，好到让天才们忘记了一个基本问题：他们的数学模型假设市场收益率服从正态分布。而市场收益率从来就不服从正态分布。

§ 01

正态分布：为什么它如此诱人

正态分布——也叫高斯分布、钟形曲线——可能是人类发明的最优美的数学概念之一。它长得像一口倒扣的钟：中间高两边低，完美对称。

正态分布之所以无处不在，是因为中心极限定理（Central Limit Theorem）：当大量独立的随机变量叠加在一起时，不管每个变量本身服从什么分布，它们的和（或平均值）都趋向正态分布。这就是为什么人的身高、考试成绩、测量误差、产品重量——大量由众多微小因素叠加决定的变量——都近似服从正态分布。

正态分布有一些极其方便的性质。最重要的是：它完全由两个参数决定——均值和标准差。知道了这两个数，你就知道了一切。

在均值加减一个标准差的范围内，覆盖了大约68%的数据。
加减两个标准差，覆盖95%。
加减三个标准差，覆盖99.7%。
超过六个标准差的事件？在正态分布下，概率大约是十亿分之一。

这就是LTCM模型的基础：如果市场波动服从正态分布，那么超过三四个标准差的极端波动基本不可能发生。你可以放心地用高杠杆去赚那些“几乎确定”的小利差。

这个逻辑在95%的时间里是对的。但正是那5%——甚至那1%——杀死了他们。

正态分布的日常实用价值在于：它给你一把尺子，用来衡量“正常”和“异常”的边界。 保险公司的精算师用它来定价人寿保险——只需要平均寿命和标准差两个数字就能算出各种概率。制造企业的质量经理用它来监控螺栓直径是否合格。整个保险业、养老金体系、公共卫生政策都建立在这种统计推理之上。芒格对此的评价简洁而精准：“我虽然不能准确地说出高斯分布的细节，不过我知道它的分布形态，也知道现实生活的许多事件和现象是按照那个方式分布的。”（“I can't tell you the details of the Gaussian distribution, but I know what it looks like and I know that many events and phenomena in real life are distributed that way.”）这暴露了芒格式智慧的典型特征：不追求数学精确推导，但抓住概念的核心直觉——形态和适用范围。

§ 02

肥尾：现实世界的真实形状

让我们做一个简单的比较。

如果股市日收益率真的服从正态分布，那么：

日跌幅超过3%的情况，大约每年发生一到两次。实际上呢？大约每年五到十次。
日跌幅超过5%的情况，大约每几十年发生一次。实际上呢？大约每几年就有一次。
日跌幅超过10%的情况，在正态分布下几乎不可能发生——概率小到宇宙年龄都不够等。实际上呢？1987年10月19日“黑色星期一”，道琼斯指数一天跌了22.6%。

这就是“肥尾”（fat tails）的含义：现实世界的分布，在尾部——也就是极端事件的区域——有比正态分布预测的更多的概率质量。用通俗的话说：极端事件发生的频率，远远高于正态分布所暗示的“几乎不可能”。

为什么会这样？因为正态分布有一个关键的前提假设：各个因素之间是独立的，且每个因素的影响都很小。在物理测量中，这个假设大致成立——你的体重不会因为邻居的体重变化而变化。但在金融市场中，这个假设完全不成立。

金融市场中的参与者不是独立的。当价格下跌时，一些人被迫平仓（因为杠杆），他们的卖出导致价格进一步下跌，触发更多人被迫平仓——正反馈循环让一个小的波动自我放大成巨大的崩盘。恐慌是会传染的，贪婪也是。市场参与者之间的相关性在正常时期很低（看起来像独立的），但在危机时期急剧升高（所有人同时逃跑）。

这就是为什么金融市场的收益率分布长得像正态分布，但在尾部有更多的概率质量——它是一种“伪正态”。大多数时候它表现得很乖，让你以为它是正态的，然后突然给你一个“六个标准差事件”。

纳西姆·塔勒布在《黑天鹅》中把这种现象刻画得非常尖锐：问题不在于黑天鹅事件本身，而在于我们用正态分布来建模的时候，从数学上就排除了黑天鹅的存在。 模型不是说黑天鹅不太可能发生——它说黑天鹅不可能发生。然后黑天鹅发生了。

§ 03

“平均斯坦”与“极端斯坦”

塔勒布提出了一个非常有用的分类框架来帮助我们判断什么时候正态分布适用，什么时候不适用。他把现实世界分成两个国度：

平均斯坦（Mediocristan）：在这个国度里，单个观测值不可能对整体产生压倒性的影响。身高就是典型的平均斯坦变量——即使你把世界上最高的人（大约2.7米）加入一个1000人的样本，平均身高也只会变化不到一毫米。在平均斯坦里，正态分布是一个极好的模型。

极端斯坦（Extremistan）：在这个国度里，单个观测值可以完全主导整体。财富就是典型的极端斯坦变量——把杰夫·贝索斯加入任何一个1000人的样本，这个样本的“平均财富”就会从几万美元跳到一亿多美元。在极端斯坦里，正态分布是一个危险的误导。

金融收益、城市人口、书籍销量、网站访问量、地震强度、战争伤亡——这些全都是极端斯坦的变量。它们服从的分布通常是幂律分布（少数极端值主导整体）、对数正态分布（对数变换后才像正态）、或者其他肥尾分布。

芒格虽然没有使用“平均斯坦”和“极端斯坦”这样的术语，但他的投资实践完全体现了对这种区别的深刻理解。他不会用过去二十年的平均回报率来预测未来——因为他知道平均值在极端斯坦里几乎没有意义。一年的极端事件可以抹掉十年的平均收益。所以他始终保持保守的杠杆水平，始终要求安全边际，始终准备好应对“不可能发生”的事件。

§ 04

2008年：当整个行业都在用错误的钟形曲线

如果说LTCM是一个警示，那么2008年的全球金融危机就是一场大审判——而正态分布假设是被告席上最重要的被告之一。

危机的核心是次级抵押贷款支持证券（MBS）和在其基础上构建的担保债务凭证（CDO）。华尔街的精算师们在为这些产品定价时，需要估算“一大批房贷同时违约”的概率。他们使用的核心工具是大卫·李（David X. Li）在2000年发表的高斯联结（Gaussian copula）模型。

这个模型做了一个关键假设：不同地区、不同借款人的违约之间的相关性是稳定的，可以用正态分布来建模。

在正常年份，这个假设大致成立。佛罗里达的房贷违约和内华达的房贷违约之间的相关性确实不高。但2006年之后，当房价在全国范围内同时下跌时，相关性急剧上升——所有地方的房贷同时开始违约，就像LTCM遇到的情况一样，“独立”的假设在危机中瞬间瓦解。

根据正态分布模型，AAA级CDO产品违约的概率小于0.01%。实际上，大量AAA级CDO在2008年变成了废纸。不是小概率事件发生了——而是模型从根本上低估了尾部风险的概率。

整个价值数万亿美元的金融产品大厦，建立在一个错误的统计假设之上。

芒格在2008年之后多次谈到这个问题。他的评论一如既往地犀利：“这些家伙以为自己在做科学，实际上他们在做的是把精确的错误推到小数点后面好多位。”模型越精确、越复杂，人们越有信心——而这种信心是建立在沙子上的。

§ 05

从高尔顿钉板到认知陷阱

正态分布还有一个鲜为人知但深刻的思想史教训。十九世纪的英国博学家弗朗西斯·高尔顿（达尔文的表弟）对正态分布着了迷，发明了“高尔顿钉板”——让小球通过钉子随机偏转，底部分布完美呈现钟形曲线。但高尔顿的着迷走向了黑暗方向：他把正态分布应用于人类的智力和“天赋”，推导出“优生学”理论，在二十世纪上半叶产生了灾难性后果。

这个教训与正态分布本身的关系在于一种深层的认知陷阱：当一个数学工具解释了大部分现象时，人们会不自觉地把它当成真理本身，然后推广到它根本不适用的领域。 正态分布描述身高和螺丝直径非常好用，但用它描述人类的“价值”或“贡献”就荒谬了——少数人创造了绝大部分的科学发现和商业价值，那是幂律分布的领域。芒格的多元思维模型方法论在此提供了关键保护：知道一个模型在哪里适用，和知道它在哪里不适用，同样重要。 拿着锤子看什么都像钉子，是芒格反复警告的思维陷阱。

§ 06

反直觉与边界

第一个反直觉：正态分布在大多数时候看起来是对的。 这才是最危险的地方。如果正态分布明显不对，人们早就不用它了。问题在于它在95%的时间里都相当精确——精确到足以让你放松警惕。然后在那5%的时间里，它让你万劫不复。这就像一个闹钟平时都准时，只在你最重要的面试那天失灵。

第二个反直觉：增加数据量不能解决肥尾问题。 在正态分布中，更多的数据意味着更精确的参数估计。但在肥尾分布中，极端事件太稀少了——你可能需要几百年的数据才能准确估计尾部的概率。而市场结构在不断变化，一百年前的数据对今天的尾部风险估计几乎没有参考价值。LTCM用了五年的数据来校准模型——这在正态世界里足够了，在肥尾世界里则完全不够。

第三个反直觉：分散化在危机中失效。 现代投资组合理论告诉你：把资产分散到不相关的类别中可以降低风险。这在正常时期是对的。但在危机中，所有资产类别的相关性都会飙升到接近1——所有东西同时下跌，分散化在你最需要它的时候恰好失灵。2008年就是这样：股票、房地产、商品、高收益债——几乎所有风险资产同时暴跌。唯一上涨的是美国国债和现金。

第四个边界条件：也不要矫枉过正。 认识到正态分布的局限性，不意味着它毫无用处。在真正的平均斯坦领域——工业质量控制、物理测量、某些生物指标——正态分布仍然是最好的工具。关键是知道你在哪个国度。芒格的智慧不在于拒绝任何工具，而在于知道每个工具适用的边界。

§ 07

如何在决策中正确对待分布

### 判断你在哪个“国度”

1. 问自己：单个极端值能否主导整体？ 如果能，你在极端斯坦，别用正态分布。如果不能，你可能在平均斯坦，正态分布可以放心用。
2. 检查历史数据的尾部。 过去发生过几次“六个标准差事件”？如果超过零次，你面对的不是正态分布。
3. 检查相关性是否稳定。 在正常时期测量的低相关性，在危机中可能飙升。如果你的策略依赖于低相关性假设，你需要问：在最糟糕的情况下，相关性会怎样变化？

### 为肥尾做准备

1. 限制杠杆。 这是芒格和巴菲特最一致的建议之一。杠杆在正态世界里是朋友——它放大你的收益。但在肥尾世界里，杠杆是杀手——它把一个可以承受的回撤变成致命的爆仓。LTCM的杠杆率高达25:1。如果他们的杠杆率是3:1，俄罗斯危机会让他们难受，但不会让他们死掉。
2. 保持冗余。 永远持有超出你认为“必要”的现金储备。因为你对“最坏情况”的估计几乎肯定是乐观的——真正的最坏情况比你的想象更糟。
3. 进行压力测试，而不是概率测试。 不要问“这种情况发生的概率是多少”——在肥尾世界里你的概率估计不靠谱。改为问“如果这种情况发生了，我能活下来吗？”如果答案是不能，不管概率多低都要改变策略。

§ 08

尊重你不知道的那部分

LTCM的故事、2008年金融危机的故事，核心教训都是同一个：不要让数学模型的优美掩盖了它的前提假设。 每一个模型都是对现实的简化。简化是必要的——没有人能处理现实的全部复杂性。但你必须知道你简化掉了什么，以及这些简化在什么条件下会让你付出致命代价。

芒格的方法不是拒绝使用模型，而是对每一个模型都保持怀疑。他会问：这个模型假设了什么？这些假设在什么条件下会不成立？当这些假设不成立的时候，后果有多严重？

正态分布假设了独立性、假设了稳定性、假设了极端事件的稀有性。当这些假设不成立的时候——而它们在金融市场中经常不成立——你需要的不是更好的模型，而是更大的安全边际。

芒格把这个道理浓缩成一句话：“在别人恐惧时贪婪，在别人贪婪时恐惧。” 这不只是一句投资格言。它的深层含义是：当所有人都在用正态分布假设来证明“一切正常”的时候，你应该准备好迎接那个“不可能”的极端事件。

因为在肥尾世界里，不可能的事情一直在发生。

§ 09

芒格原话

“人们算出来一个数字，觉得很精确，但整个前提假设都是错的。精确地算错，比粗略地算对更危险。”
*“People calculate a number and they think it's very precise, but the entire premise is wrong. It's more dangerous to be precisely wrong than approximately right.”*
— Charlie Munger

“我们从不依赖任何单一的数学模型。如果我们需要用复杂的数学来证明一笔投资是合理的，我们就不做。”
*“We never rely on any single mathematical model. If we need complex mathematics to justify an investment, we pass.”*
— Charlie Munger

“人们计算得太多，思考得太少。”
*“People calculate too much and think too little.”*
— Charlie Munger

“我只想知道我会死在哪里，这样我就永远不去那个地方。”
*“All I want to know is where I'm going to die, so I'll never go there.”*
— Charlie Munger

§ 10

关联模型

幂律分布 — 极端斯坦中最常见的非正态分布形式
大数定律 — 中心极限定理将大数定律和正态分布联系在一起
回归均值 — 正态分布解释了为什么极端值倾向于回归均值
贝叶斯定理 — 先验概率的设定常依赖于正态分布假设
概率思维与期望值 — 期望值计算的准确性取决于你对底层分布的理解
安全边际 — 在肥尾世界中，安全边际是对抗模型失灵的最后防线
不对称性与凸性 — 肥尾分布意味着上行和下行的不对称性
回归均值 — 回归均值在正态分布中表现良好，但在肥尾分布中可能失效
趋势外推的局限 — 用正常时期的趋势外推极端时期的表现是经典错误
非线性后果 — 正态分布假设线性叠加，非正态分布源于非线性交互

§ 11

实践检查清单

□识别国度：我面对的变量是“平均斯坦”的（身高、温度）还是“极端斯坦”的（财富、市场回报、网络流量）？
□尾部检查：历史上是否出现过远超“三个标准差”的极端事件？如果有，正态分布假设不成立。
□相关性假设：我的策略是否依赖于“低相关性”假设？在危机中这个假设还成立吗？
□杠杆检查：如果最坏情况比我预期的还糟两倍，我的杠杆水平能否承受？
□生存测试：不问“概率多大”，改问“如果发生了，我还活着吗？”
□模型前提审查：我使用的模型做了哪些简化假设？这些假设在当前环境下还合理吗？

§ 12