样本量与统计显著性

# 样本量与统计显著性

Sample Size & Statistical Significance

2012年，比尔·米勒（Bill Miller）是华尔街最炙手可热的名字。他管理的Legg Mason价值信托基金连续15年跑赢标普500指数——这是有记录以来最长的连胜纪录。财经媒体把他封为“有史以来最伟大的基金经理之一”，投资者排着队往他的基金里塞钱。

然后一切崩塌了。2008年，他的基金暴跌55%，远超市场跌幅。接下来几年继续挣扎。那15年的辉煌战绩，被后来的灾难几乎全部抹去。

比尔·米勒是骗子吗？是庸才吗？都不一定。但他的故事暴露了一个大多数人不愿面对的真相：即使15年的连胜纪录，也可能没有你以为的那么多信息量。 当你考虑到全美有数千位基金经理同时在运作，纯粹靠概率，其中也几乎必然会出现一个连续跑赢市场十几年的人——就像你抛硬币够多次，总会出现一串连续正面。

问题不在于米勒是否有能力——他可能确实有。问题在于：你凭什么确定你看到的是能力而非运气？答案取决于样本量。而大多数人对“多大的样本才够”的直觉，离正确答案差了十万八千里。

§ 01

人类天生就是糟糕的统计学家

让我们做一个思想实验。

你面前有两个骰子。一个是公平的（每面概率相等），另一个被做了手脚（出6的概率更高）。你不知道哪个是哪个。现在我让你掷其中一个骰子几次，然后判断它是公平的还是有问题的。

你掷了3次，出了2次6。你觉得它有问题吗？

大多数人的直觉会说“可能有问题”。但让我们算一下：即使是一个完全公平的骰子，3次中出2次6的概率大约是7%。这算不上罕见。你的“证据”极其薄弱。

你掷了30次，出了15次6。现在呢？一个公平骰子30次中出15次6的概率几乎可以忽略不计——统计学上已经足够“显著”了。你可以有相当高的信心说这个骰子有问题。

从3次到30次，发生了什么？样本量增加了，随机噪声被稀释了，真实信号有空间浮现了。 这就是样本量的本质作用：它是区分信号和噪声的分辨率。样本太小，你的视野全是噪声；样本够大，信号才能从噪声中脱颖而出。

问题在于，人类的大脑根本不具备直觉地理解样本量的能力。进化塑造了我们的大脑去快速从少量线索中做出判断——草丛中一次可疑的沙沙声就足以让你逃命。在远古非洲草原上，“等到我收集了30个独立观测再下结论”的人早就被豹子吃了。

于是我们继承了一台精密的“模式识别机器”，它的特点是灵敏度极高但误报率也极高——看到两三个数据点就迫不及待地编织出一个叙事。心理学家卡尼曼和特沃斯基称之为“小数定律的信仰”（belief in the Law of Small Numbers）：人们本能地相信小样本也应该反映总体规律，但事实恰恰相反——小样本最大的特征就是不可靠。

§ 02

三年跑赢市场说明什么：几乎什么都不说明

让我们把骰子换成一个对每个投资者都切身相关的问题：一个基金经理连续3年跑赢市场，这能说明什么？

假设一个基金经理完全没有超额收益能力——他的投资结果和掷硬币一样随机。在这种情况下，他在任意一年跑赢市场的概率大约是50%。连续3年跑赢的概率是50%的三次方，即12.5%。

12.5%。这意味着在1000个完全靠运气的基金经理中，大约有125个会在任意三年窗口内实现连续跑赢。一百二十五个人。他们每一个人都会有一段“辉煌的业绩记录”，每一个人都可以对着镜头讲出一套头头是道的投资哲学，每一个人都会被一些投资者视为天才。

但他们的业绩背后没有任何真实的能力支撑。纯粹的概率就能制造出大量“看起来很厉害”的人。

那多久的业绩记录才有意义？投资研究者做过大量的统计功率（statistical power）分析，结论令人沮丧：要以合理的统计信心区分一个真正有能力的基金经理（比如年化超额收益2-3%）和一个纯靠运气的人，你需要至少20年的数据。 甚至有研究指出，对于超额收益较小的策略，需要的样本量可能长达50年以上。

这不是说短期业绩毫无价值——它是一条弱证据，可以在贝叶斯框架中稍微更新你的先验。但它远远没有强到足以得出“这个人有能力”的结论。而大多数投资者看了两三年的好业绩就把毕生积蓄交出去了。

芒格对这个问题的态度非常清晰：

“It is remarkable how much long-term advantage people like us have gotten by trying to be consistently not stupid, instead of trying to be very intelligent.”
“像我们这样的人，通过持续地避免愚蠢而非试图变得非常聪明，获得了多么大的长期优势，这真是令人惊叹。”

“持续地”（consistently）——这个词是关键。它暗示了一个足够长的时间跨度，长到大数定律和统计显著性有空间发挥作用。一两次聪明的决策可能是运气；持续几十年地避免愚蠢，那是能力。

§ 03

新药为什么需要大样本：对你生命负责的统计学

如果样本量的问题在投资领域只是让你亏钱，那么在医学领域它可以要你的命。

假设有人告诉你一种新药“有效”，你的第一个问题应该是：在多少人身上测试过？

药物临床试验分为三个阶段，每个阶段的样本量递增，正是因为研究者深知小样本的欺骗性。

一期临床试验（Phase I）： 大约20-100人。主要目的不是验证疗效，而是检测安全性和适当剂量。这个阶段的样本太小，任何关于疗效的结论都极不可靠。

二期临床试验（Phase II）： 大约100-300人。开始初步评估疗效。但这个样本量仍然太小，无法排除许多混淆因素。二期试验中“有效”的药物，有超过一半在三期试验中失败。这个数字值得你反复品味——在几百人身上看到的“疗效”，有一半以上是虚假信号。

三期临床试验（Phase III）： 通常1000-5000人，有时更多。这是真正的“考验”。样本量足够大，使用随机双盲对照设计，才能以合理的统计信心判断药物是否真的有效——也就是说，疗效在统计上“显著”，不太可能是随机波动造成的假象。

为什么需要这么多人？因为药物的真实疗效往往微弱。如果一种降压药平均降低血压5mmHg，但人与人之间的血压波动本身就有10-20mmHg，那么在一个30人的小组里，你根本分不清“药物确实降了5mmHg”还是“这30个人碰巧波动方向一致”。你需要几千人的样本，才能让那5mmHg的真实效果从人际差异的噪声中浮现出来。

这就是“统计显著性”（statistical significance）的含义：一个结果不太可能仅仅由随机波动产生。 传统上用p值（p-value）小于0.05来判定——意思是，如果药物实际上无效，你观察到如此大（或更大）的疗效的概率小于5%。

但这里有一个微妙而致命的误解。p < 0.05不意味着“药物有效的概率是95%”。它意味着“如果药物无效，你看到这种结果的概率小于5%”。这两个说法在逻辑上完全不同。混淆它们是统计学中最常见也最危险的错误之一——而即使是受过训练的科学家也经常犯。

芒格虽然不是统计学家，但他的思维方式与统计显著性的精神完全一致。他反复告诫人们不要被少量的生动案例所打动，而要追问：证据的强度够吗？样本量够吗？这个结论经得起严格审视吗？

§ 04

“我认识一个人他......”：最危险的推理方式

在日常生活中，样本量不足最常见的表现形式，大概就是“个案推理”（anecdotal reasoning）。

“我认识一个人，他吸了一辈子的烟，活到了95岁。所以吸烟没那么危险。”

“我有个朋友辍学创业，现在身家过亿。所以学历不重要。”

“我邻居打了疫苗之后得了自闭症。所以疫苗导致自闭症。”

每一个这样的陈述都犯了同样的错误：用一个样本量为1的观察来否定（或确认）一个基于数百万样本得出的统计规律。

吸烟确实大幅增加肺癌和心血管疾病的风险——这是基于几十万人的前瞻性研究得出的结论。但“大幅增加风险”不等于“每个人都会得病”。即使吸烟让肺癌风险增加20倍，仍然有大量吸烟者不会得肺癌。你“认识的那个人”只是幸运地落在了概率的好的那一边。他的存在丝毫不改变统计规律。

辍学创业成功的故事同理。媒体热衷报道扎克伯格、比尔·盖茨这些辍学成功者，但从不报道成千上万辍学后失败的人。你看到的是严重被幸存者偏差扭曲的样本。基础概率告诉你：绝大多数辍学者的经济前景比完成学业的同龄人更差。一个反例不能推翻这个规律。

芒格对这种推理方式极为警惕。他经常引用的一个思维原则是：

“The plural of anecdote is not data.”
“个案的复数形式不是数据。”

这句话简洁到了残酷的程度。它的意思是：无论你收集了多少个生动的故事、多少个“我认识的人”、多少个打动人心的案例，它们加在一起也不等于系统性的证据。因为个案天然地被选择性偏差、记忆偏差、叙事偏差所污染。只有经过设计的、随机的、足够大的样本，才能给你可靠的结论。

这在投资中的表现尤为突出。一个投资者告诉你：“我买了比特币赚了十倍。”这条信息几乎没有决策价值。你不知道他是否在其他投资上亏了钱，你不知道有多少人买了比特币后亏损，你不知道他的买入时机是不是纯粹的运气。一个数据点，淹没在巨大的不确定性中。

§ 05

显著性与实际意义：统计学的隐藏陷阱

理解了样本量的重要性之后，还有一个同样重要但更微妙的问题：统计显著性不等于实际意义。

假设一家互联网公司做了一个A/B测试。他们对网站按钮的颜色做了两个版本——红色和蓝色——然后让一百万用户各看其中一个版本。结果发现，蓝色按钮的点击率比红色高0.01个百分点，而且这个差异在统计上是“显著的”（p < 0.05）。

那你应该换成蓝色按钮吗？从统计显著性的角度看，答案是“是”。但从实际意义的角度看，0.01个百分点的差异可能根本不值得你付出更换按钮的工程成本和风险。

这就是样本量的另一面：样本量越大，你越能检测到越小的差异——但越小的差异越不可能有实际意义。 当样本量大到一百万，你几乎可以检测到任何非零的差异，但大多数微小差异在实践中毫无价值。

这个陷阱在医学研究中尤为危险。一种药物在一万人的试验中显示了“统计显著”的血压降低——平均降了1mmHg。统计上确实显著，但临床上完全无意义——1mmHg的血压变化不会对任何健康结果产生可测量的影响。

芒格处理这个问题的方式是追问两个层次：第一，这个效果是真实的吗（样本量和统计显著性）？第二，这个效果重要吗（实际意义和后果的大小）？ 只有两个问题的答案都是肯定的，才值得行动。

§ 06

反直觉与边界

反直觉一：需要的样本量比你以为的大得多。 这几乎是样本量问题中最核心的反直觉。人们直觉上觉得20-30个样本“挺多了”，但在许多真实场景中，你需要数百甚至数千个样本才能得到可靠的结论。尤其是当你要检测的效果很小（比如微弱的投资优势）或者底层数据的波动很大（比如股票回报率）时，需要的样本量会剧增。

反直觉二：更多的数据不总是更好。 如果数据本身有系统性偏差（比如只包含幸存者，或者测量方法有误），那么增加样本量只是让你更精确地得到一个错误的答案。垃圾进，垃圾出——无论你收集了多少垃圾。样本的质量和样本的数量同样重要。

反直觉三：“没有发现差异”不等于“没有差异”。 如果一个小规模的研究没有发现药物有效，这可能只是因为样本太小、统计功率不足——真实的效果存在但你检测不到。这被称为“第二类错误”（Type II Error），它和样本量直接相关：样本越小，你漏掉真实效果的概率越高。

边界一：独立性假设。 统计显著性的计算假设样本之间是独立的。但如果你的30个数据点来自同一时期、同一市场、同一经济环境，它们之间高度相关，你的“有效样本量”远小于30。一个基金经理在2010-2020年的牛市中跑赢市场10年，你不能把这当成10个独立的观测——整个十年都处在同一个上升趋势中。

边界二：多重检验问题。 如果你测试了100种药物，用p < 0.05的标准，你预期会有大约5种药物“通过”测试——即使它们全部无效。这就是“多重检验”（multiple testing）问题。同样的逻辑适用于投资策略的回测：如果你测试了几百种策略然后挑出表现最好的那个，那个策略的“显著性”可能完全是虚假的。芒格对“数据挖掘”式的投资策略一直持深度怀疑态度，这是有坚实的统计学基础的。

§ 07

如何在日常中使用样本量思维

第一，养成问“样本有多大”的习惯。 每当有人给你呈现一个结论——投资业绩、产品评价、健康建议、商业趋势——你的第一个反应应该是：这个结论基于多少数据？5个案例还是5000个？样本量越小，你对结论的信心应该越低。

第二，对自己的经验持怀疑态度。 你的个人经验是你一生中最小的样本集之一。你投资过的股票有多少只？做过多少次重大商业决策？经历过多少次经济周期？这些数字通常小得可怜。你的“经验之谈”可能不过是几十个数据点中的随机模式，被你的叙事本能包装成了“人生智慧”。

第三，区分信号检测和噪声过拟合。 当你发现一个“规律”时，问自己：如果我在一个全新的、独立的数据集上测试这个规律，它还会成立吗？如果你只是在同一组数据上找到了模式然后宣称发现了真理，你很可能只是在过拟合噪声。

第四，理解“没有证据”和“有证据表明没有”的区别。 一项小规模研究没有发现某种疗法有效，这是“没有证据表明有效”——可能只是样本太小检测不到。一项大规模、高质量的研究没有发现疗法有效，这更接近“有证据表明无效”。两者的决策含义完全不同。

第五，给判断留缓冲期。 当你看到令人兴奋的短期结果（新投资的几个月业绩、新策略的初步效果），强迫自己等待更多数据。预先设定一个样本量阈值：“在我看到至少X个数据点之前，我不会做出最终判断。”这是对抗冲动决策的简单但有效的纪律。

§ 08

耐心是对抗小样本幻觉的唯一解药

回到比尔·米勒的故事。

他连续15年跑赢市场的纪录确实令人印象深刻——以任何标准衡量，这都是一个不小的样本。但当你考虑到同期有数千位基金经理在竞争，幸存者偏差的效应就变得不可忽视。在一个足够大的群体中，15年连胜的概率虽然对单个个体来说很低，但在群体层面几乎是必然会出现的。

真正改变“统计裁决”的，是巴菲特和芒格那种长达半个世纪以上的记录。五十多年的超额收益，经历了多次牛市和熊市、多次经济衰退和复苏、多次技术革命和行业洗牌——在这样的样本量面前，纯粹的运气几乎不可能是解释。信号终于从噪声中浮现了出来。

但这个结论本身就包含了一个令人不安的推论：在大多数情况下，你在做决策时面对的样本量远远不够。你必须在不确定性中行动。

芒格的回应不是瘫痪——不是说“数据不够所以什么都不做”。他的回应是谦逊——承认自己的判断在小样本面前的脆弱性，因此给每一个决策留下足够的安全边际。他的回应也是纪律——不追逐短期的亮眼业绩，不被少量生动的案例带偏，坚持等到证据积累到足够程度再下结论。

“The big money is not in the buying or selling, but in the waiting.”
“大钱不在买卖中，而在等待中。”——巴菲特（芒格多次引用）

等待，本质上就是在等样本量变大。等噪声被稀释。等信号浮现。

这种等待不是消极的无为，而是一种积极的统计纪律。它说的是：在数据给你足够的理由之前，不要假装你知道答案。

§ 09

芒格相关原话

“You need to have a passionate interest in why things are happening. That cast of mind, kept over long periods, gradually improves your ability to focus on reality.”
“你需要对事物为什么会发生保持热切的兴趣。这种思维方式，保持足够长的时间，会逐渐提升你聚焦于现实的能力。”

“保持足够长的时间”——不是三个月，不是三年，是一生。这是芒格版本的“增大样本量”。

“People calculate too much and think too little.”
“人们计算太多而思考太少。”

这句话可以反过来理解：人们太快地从少量数据中“计算”出结论，却太少思考那些数据是否足够支撑结论。

§ 10

关联模型

大数定律 — 样本量是大数定律生效的前提：样本越大，随机波动越被稀释
贝叶斯定理 — 先验概率的可靠性取决于支持它的样本量
回归均值 — 小样本中的极端表现几乎必然回归，因为极端值中运气占比太大
概率思维与期望值 — 期望值只在足够大的样本中才能“兑现”为实际结果
相关不等于因果 — 小样本中的“相关性”极易是虚假的，样本量是验证因果的基础条件
自视过高的倾向 — 人们把小样本中的好运归因于自己的能力
错误衡量易得性倾向 — 生动的个案比抽象的统计数据更容易影响判断
安全边际 — 当样本量不足以给出确定结论时，安全边际是对抗不确定性的最后防线

§ 11

实践检查清单

评估证据时：

□这个结论基于多大的样本？3个数据点和3000个数据点的可信度天差地别
□样本之间是独立的吗？还是来自同一时期/同一环境的高度相关观测？
□是否存在多重检验问题——在很多选项中挑出“最好的”，然后宣称它显著？
□“统计显著”的效果在实际中有多大意义？是真正重要的差异还是微不足道的？

评估投资业绩时：

□这位基金经理/策略的业绩记录有多长？经历了多少种不同的市场环境？
□有多少基金经理同期在竞争？幸存者偏差可能让最幸运的人看起来像天才
□我是否在用短期业绩（3-5年）做出本应基于长期数据（20年+）的判断？

对抗个案推理时：

□我是否在用“我认识一个人”的故事来覆盖系统性的统计证据？
□我看到的案例是否被幸存者偏差/媒体选择偏差严重扭曲？
□在做出判断之前，我是否考虑了基础概率而非只听个案？

日常决策时：

□我是否为自己设定了“最少样本量”标准——在看到足够数据之前不轻易下结论？
□如果数据不够，我是否给决策留了足够的安全边际来应对判断错误的可能？

§ 12