MUNGER MODELS
数学与统计学 · ★★★★☆

样本量与统计显著性

Sample Size & Statistical Significance
§ 00

样本量是区分信号与噪声的分辨率,人类天生倾向于从小样本中过度推断规律,理解统计显著性能避免将运气误认为能力。

# 样本量与统计显著性

Sample Size & Statistical Significance

2012年,比尔·米勒(Bill Miller)是华尔街最炙手可热的名字。他管理的Legg Mason价值信托基金连续15年跑赢标普500指数——这是有记录以来最长的连胜纪录。财经媒体把他封为“有史以来最伟大的基金经理之一”,投资者排着队往他的基金里塞钱。

然后一切崩塌了。2008年,他的基金暴跌55%,远超市场跌幅。接下来几年继续挣扎。那15年的辉煌战绩,被后来的灾难几乎全部抹去。

比尔·米勒是骗子吗?是庸才吗?都不一定。但他的故事暴露了一个大多数人不愿面对的真相:即使15年的连胜纪录,也可能没有你以为的那么多信息量。 当你考虑到全美有数千位基金经理同时在运作,纯粹靠概率,其中也几乎必然会出现一个连续跑赢市场十几年的人——就像你抛硬币够多次,总会出现一串连续正面。

问题不在于米勒是否有能力——他可能确实有。问题在于:你凭什么确定你看到的是能力而非运气?答案取决于样本量。而大多数人对“多大的样本才够”的直觉,离正确答案差了十万八千里。


§ 01

人类天生就是糟糕的统计学家

让我们做一个思想实验。

你面前有两个骰子。一个是公平的(每面概率相等),另一个被做了手脚(出6的概率更高)。你不知道哪个是哪个。现在我让你掷其中一个骰子几次,然后判断它是公平的还是有问题的。

你掷了3次,出了2次6。你觉得它有问题吗?

大多数人的直觉会说“可能有问题”。但让我们算一下:即使是一个完全公平的骰子,3次中出2次6的概率大约是7%。这算不上罕见。你的“证据”极其薄弱。

你掷了30次,出了15次6。现在呢?一个公平骰子30次中出15次6的概率几乎可以忽略不计——统计学上已经足够“显著”了。你可以有相当高的信心说这个骰子有问题。

从3次到30次,发生了什么?样本量增加了,随机噪声被稀释了,真实信号有空间浮现了。 这就是样本量的本质作用:它是区分信号和噪声的分辨率。样本太小,你的视野全是噪声;样本够大,信号才能从噪声中脱颖而出。

问题在于,人类的大脑根本不具备直觉地理解样本量的能力。进化塑造了我们的大脑去快速从少量线索中做出判断——草丛中一次可疑的沙沙声就足以让你逃命。在远古非洲草原上,“等到我收集了30个独立观测再下结论”的人早就被豹子吃了。

于是我们继承了一台精密的“模式识别机器”,它的特点是灵敏度极高但误报率也极高——看到两三个数据点就迫不及待地编织出一个叙事。心理学家卡尼曼和特沃斯基称之为“小数定律的信仰”(belief in the Law of Small Numbers):人们本能地相信小样本也应该反映总体规律,但事实恰恰相反——小样本最大的特征就是不可靠。


§ 02

三年跑赢市场说明什么:几乎什么都不说明

让我们把骰子换成一个对每个投资者都切身相关的问题:一个基金经理连续3年跑赢市场,这能说明什么?

假设一个基金经理完全没有超额收益能力——他的投资结果和掷硬币一样随机。在这种情况下,他在任意一年跑赢市场的概率大约是50%。连续3年跑赢的概率是50%的三次方,即12.5%。

12.5%。这意味着在1000个完全靠运气的基金经理中,大约有125个会在任意三年窗口内实现连续跑赢。一百二十五个人。他们每一个人都会有一段“辉煌的业绩记录”,每一个人都可以对着镜头讲出一套头头是道的投资哲学,每一个人都会被一些投资者视为天才。

但他们的业绩背后没有任何真实的能力支撑。纯粹的概率就能制造出大量“看起来很厉害”的人。

那多久的业绩记录才有意义?投资研究者做过大量的统计功率(statistical power)分析,结论令人沮丧:要以合理的统计信心区分一个真正有能力的基金经理(比如年化超额收益2-3%)和一个纯靠运气的人,你需要至少20年的数据。 甚至有研究指出,对于超额收益较小的策略,需要的样本量可能长达50年以上。

这不是说短期业绩毫无价值——它是一条弱证据,可以在贝叶斯框架中稍微更新你的先验。但它远远没有强到足以得出“这个人有能力”的结论。而大多数投资者看了两三年的好业绩就把毕生积蓄交出去了。

芒格对这个问题的态度非常清晰:

“It is remarkable how much long-term advantage people like us have gotten by trying to be consistently not stupid, instead of trying to be very intelligent.”

“像我们这样的人,通过持续地避免愚蠢而非试图变得非常聪明,获得了多么大的长期优势,这真是令人惊叹。”

“持续地”(consistently)——这个词是关键。它暗示了一个足够长的时间跨度,长到大数定律和统计显著性有空间发挥作用。一两次聪明的决策可能是运气;持续几十年地避免愚蠢,那是能力。


§ 03

新药为什么需要大样本:对你生命负责的统计学

如果样本量的问题在投资领域只是让你亏钱,那么在医学领域它可以要你的命。

假设有人告诉你一种新药“有效”,你的第一个问题应该是:在多少人身上测试过?

药物临床试验分为三个阶段,每个阶段的样本量递增,正是因为研究者深知小样本的欺骗性。

一期临床试验(Phase I): 大约20-100人。主要目的不是验证疗效,而是检测安全性和适当剂量。这个阶段的样本太小,任何关于疗效的结论都极不可靠。

二期临床试验(Phase II): 大约100-300人。开始初步评估疗效。但这个样本量仍然太小,无法排除许多混淆因素。二期试验中“有效”的药物,有超过一半在三期试验中失败。这个数字值得你反复品味——在几百人身上看到的“疗效”,有一半以上是虚假信号。

三期临床试验(Phase III): 通常1000-5000人,有时更多。这是真正的“考验”。样本量足够大,使用随机双盲对照设计,才能以合理的统计信心判断药物是否真的有效——也就是说,疗效在统计上“显著”,不太可能是随机波动造成的假象。

为什么需要这么多人?因为药物的真实疗效往往微弱。如果一种降压药平均降低血压5mmHg,但人与人之间的血压波动本身就有10-20mmHg,那么在一个30人的小组里,你根本分不清“药物确实降了5mmHg”还是“这30个人碰巧波动方向一致”。你需要几千人的样本,才能让那5mmHg的真实效果从人际差异的噪声中浮现出来。

这就是“统计显著性”(statistical significance)的含义:一个结果不太可能仅仅由随机波动产生。 传统上用p值(p-value)小于0.05来判定——意思是,如果药物实际上无效,你观察到如此大(或更大)的疗效的概率小于5%。

但这里有一个微妙而致命的误解。p < 0.05不意味着“药物有效的概率是95%”。它意味着“如果药物无效,你看到这种结果的概率小于5%”。这两个说法在逻辑上完全不同。混淆它们是统计学中最常见也最危险的错误之一——而即使是受过训练的科学家也经常犯。

芒格虽然不是统计学家,但他的思维方式与统计显著性的精神完全一致。他反复告诫人们不要被少量的生动案例所打动,而要追问:证据的强度够吗?样本量够吗?这个结论经得起严格审视吗?


§ 04

“我认识一个人他......”:最危险的推理方式

在日常生活中,样本量不足最常见的表现形式,大概就是“个案推理”(anecdotal reasoning)。

“我认识一个人,他吸了一辈子的烟,活到了95岁。所以吸烟没那么危险。”

“我有个朋友辍学创业,现在身家过亿。所以学历不重要。”

“我邻居打了疫苗之后得了自闭症。所以疫苗导致自闭症。”

每一个这样的陈述都犯了同样的错误:用一个样本量为1的观察来否定(或确认)一个基于数百万样本得出的统计规律。

吸烟确实大幅增加肺癌和心血管疾病的风险——这是基于几十万人的前瞻性研究得出的结论。但“大幅增加风险”不等于“每个人都会得病”。即使吸烟让肺癌风险增加20倍,仍然有大量吸烟者不会得肺癌。你“认识的那个人”只是幸运地落在了概率的好的那一边。他的存在丝毫不改变统计规律。

辍学创业成功的故事同理。媒体热衷报道扎克伯格、比尔·盖茨这些辍学成功者,但从不报道成千上万辍学后失败的人。你看到的是严重被幸存者偏差扭曲的样本。基础概率告诉你:绝大多数辍学者的经济前景比完成学业的同龄人更差。一个反例不能推翻这个规律。

芒格对这种推理方式极为警惕。他经常引用的一个思维原则是:

“The plural of anecdote is not data.”

“个案的复数形式不是数据。”

这句话简洁到了残酷的程度。它的意思是:无论你收集了多少个生动的故事、多少个“我认识的人”、多少个打动人心的案例,它们加在一起也不等于系统性的证据。因为个案天然地被选择性偏差、记忆偏差、叙事偏差所污染。只有经过设计的、随机的、足够大的样本,才能给你可靠的结论。

这在投资中的表现尤为突出。一个投资者告诉你:“我买了比特币赚了十倍。”这条信息几乎没有决策价值。你不知道他是否在其他投资上亏了钱,你不知道有多少人买了比特币后亏损,你不知道他的买入时机是不是纯粹的运气。一个数据点,淹没在巨大的不确定性中。


§ 05

显著性与实际意义:统计学的隐藏陷阱

理解了样本量的重要性之后,还有一个同样重要但更微妙的问题:统计显著性不等于实际意义。

假设一家互联网公司做了一个A/B测试。他们对网站按钮的颜色做了两个版本——红色和蓝色——然后让一百万用户各看其中一个版本。结果发现,蓝色按钮的点击率比红色高0.01个百分点,而且这个差异在统计上是“显著的”(p < 0.05)。

那你应该换成蓝色按钮吗?从统计显著性的角度看,答案是“是”。但从实际意义的角度看,0.01个百分点的差异可能根本不值得你付出更换按钮的工程成本和风险。

这就是样本量的另一面:样本量越大,你越能检测到越小的差异——但越小的差异越不可能有实际意义。 当样本量大到一百万,你几乎可以检测到任何非零的差异,但大多数微小差异在实践中毫无价值。

这个陷阱在医学研究中尤为危险。一种药物在一万人的试验中显示了“统计显著”的血压降低——平均降了1mmHg。统计上确实显著,但临床上完全无意义——1mmHg的血压变化不会对任何健康结果产生可测量的影响。

芒格处理这个问题的方式是追问两个层次:第一,这个效果是真实的吗(样本量和统计显著性)?第二,这个效果重要吗(实际意义和后果的大小)? 只有两个问题的答案都是肯定的,才值得行动。


§ 06

反直觉与边界

反直觉一:需要的样本量比你以为的大得多。 这几乎是样本量问题中最核心的反直觉。人们直觉上觉得20-30个样本“挺多了”,但在许多真实场景中,你需要数百甚至数千个样本才能得到可靠的结论。尤其是当你要检测的效果很小(比如微弱的投资优势)或者底层数据的波动很大(比如股票回报率)时,需要的样本量会剧增。

反直觉二:更多的数据不总是更好。 如果数据本身有系统性偏差(比如只包含幸存者,或者测量方法有误),那么增加样本量只是让你更精确地得到一个错误的答案。垃圾进,垃圾出——无论你收集了多少垃圾。样本的质量和样本的数量同样重要。

反直觉三:“没有发现差异”不等于“没有差异”。 如果一个小规模的研究没有发现药物有效,这可能只是因为样本太小、统计功率不足——真实的效果存在但你检测不到。这被称为“第二类错误”(Type II Error),它和样本量直接相关:样本越小,你漏掉真实效果的概率越高。

边界一:独立性假设。 统计显著性的计算假设样本之间是独立的。但如果你的30个数据点来自同一时期、同一市场、同一经济环境,它们之间高度相关,你的“有效样本量”远小于30。一个基金经理在2010-2020年的牛市中跑赢市场10年,你不能把这当成10个独立的观测——整个十年都处在同一个上升趋势中。

边界二:多重检验问题。 如果你测试了100种药物,用p < 0.05的标准,你预期会有大约5种药物“通过”测试——即使它们全部无效。这就是“多重检验”(multiple testing)问题。同样的逻辑适用于投资策略的回测:如果你测试了几百种策略然后挑出表现最好的那个,那个策略的“显著性”可能完全是虚假的。芒格对“数据挖掘”式的投资策略一直持深度怀疑态度,这是有坚实的统计学基础的。


§ 07

如何在日常中使用样本量思维

第一,养成问“样本有多大”的习惯。 每当有人给你呈现一个结论——投资业绩、产品评价、健康建议、商业趋势——你的第一个反应应该是:这个结论基于多少数据?5个案例还是5000个?样本量越小,你对结论的信心应该越低。

第二,对自己的经验持怀疑态度。 你的个人经验是你一生中最小的样本集之一。你投资过的股票有多少只?做过多少次重大商业决策?经历过多少次经济周期?这些数字通常小得可怜。你的“经验之谈”可能不过是几十个数据点中的随机模式,被你的叙事本能包装成了“人生智慧”。

第三,区分信号检测和噪声过拟合。 当你发现一个“规律”时,问自己:如果我在一个全新的、独立的数据集上测试这个规律,它还会成立吗?如果你只是在同一组数据上找到了模式然后宣称发现了真理,你很可能只是在过拟合噪声。

第四,理解“没有证据”和“有证据表明没有”的区别。 一项小规模研究没有发现某种疗法有效,这是“没有证据表明有效”——可能只是样本太小检测不到。一项大规模、高质量的研究没有发现疗法有效,这更接近“有证据表明无效”。两者的决策含义完全不同。

第五,给判断留缓冲期。 当你看到令人兴奋的短期结果(新投资的几个月业绩、新策略的初步效果),强迫自己等待更多数据。预先设定一个样本量阈值:“在我看到至少X个数据点之前,我不会做出最终判断。”这是对抗冲动决策的简单但有效的纪律。


§ 08

耐心是对抗小样本幻觉的唯一解药

回到比尔·米勒的故事。

他连续15年跑赢市场的纪录确实令人印象深刻——以任何标准衡量,这都是一个不小的样本。但当你考虑到同期有数千位基金经理在竞争,幸存者偏差的效应就变得不可忽视。在一个足够大的群体中,15年连胜的概率虽然对单个个体来说很低,但在群体层面几乎是必然会出现的。

真正改变“统计裁决”的,是巴菲特和芒格那种长达半个世纪以上的记录。五十多年的超额收益,经历了多次牛市和熊市、多次经济衰退和复苏、多次技术革命和行业洗牌——在这样的样本量面前,纯粹的运气几乎不可能是解释。信号终于从噪声中浮现了出来。

但这个结论本身就包含了一个令人不安的推论:在大多数情况下,你在做决策时面对的样本量远远不够。你必须在不确定性中行动。

芒格的回应不是瘫痪——不是说“数据不够所以什么都不做”。他的回应是谦逊——承认自己的判断在小样本面前的脆弱性,因此给每一个决策留下足够的安全边际。他的回应也是纪律——不追逐短期的亮眼业绩,不被少量生动的案例带偏,坚持等到证据积累到足够程度再下结论。

“The big money is not in the buying or selling, but in the waiting.”

“大钱不在买卖中,而在等待中。”——巴菲特(芒格多次引用)

等待,本质上就是在等样本量变大。等噪声被稀释。等信号浮现。

这种等待不是消极的无为,而是一种积极的统计纪律。它说的是:在数据给你足够的理由之前,不要假装你知道答案。


§ 09

芒格相关原话

“You need to have a passionate interest in why things are happening. That cast of mind, kept over long periods, gradually improves your ability to focus on reality.”

“你需要对事物为什么会发生保持热切的兴趣。这种思维方式,保持足够长的时间,会逐渐提升你聚焦于现实的能力。”

“保持足够长的时间”——不是三个月,不是三年,是一生。这是芒格版本的“增大样本量”。

“People calculate too much and think too little.”

“人们计算太多而思考太少。”

这句话可以反过来理解:人们太快地从少量数据中“计算”出结论,却太少思考那些数据是否足够支撑结论。


§ 10

关联模型

  • 大数定律 — 样本量是大数定律生效的前提:样本越大,随机波动越被稀释
  • 贝叶斯定理 — 先验概率的可靠性取决于支持它的样本量
  • 回归均值 — 小样本中的极端表现几乎必然回归,因为极端值中运气占比太大
  • 概率思维与期望值 — 期望值只在足够大的样本中才能“兑现”为实际结果
  • 相关不等于因果 — 小样本中的“相关性”极易是虚假的,样本量是验证因果的基础条件
  • 自视过高的倾向 — 人们把小样本中的好运归因于自己的能力
  • 错误衡量易得性倾向 — 生动的个案比抽象的统计数据更容易影响判断
  • 安全边际 — 当样本量不足以给出确定结论时,安全边际是对抗不确定性的最后防线

§ 11

实践检查清单

评估证据时:

  • 这个结论基于多大的样本?3个数据点和3000个数据点的可信度天差地别
  • 样本之间是独立的吗?还是来自同一时期/同一环境的高度相关观测?
  • 是否存在多重检验问题——在很多选项中挑出“最好的”,然后宣称它显著?
  • “统计显著”的效果在实际中有多大意义?是真正重要的差异还是微不足道的?

评估投资业绩时:

  • 这位基金经理/策略的业绩记录有多长?经历了多少种不同的市场环境?
  • 有多少基金经理同期在竞争?幸存者偏差可能让最幸运的人看起来像天才
  • 我是否在用短期业绩(3-5年)做出本应基于长期数据(20年+)的判断?

对抗个案推理时:

  • 我是否在用“我认识一个人”的故事来覆盖系统性的统计证据?
  • 我看到的案例是否被幸存者偏差/媒体选择偏差严重扭曲?
  • 在做出判断之前,我是否考虑了基础概率而非只听个案?

日常决策时:

  • 我是否为自己设定了“最少样本量”标准——在看到足够数据之前不轻易下结论?
  • 如果数据不够,我是否给决策留了足够的安全边际来应对判断错误的可能?

§ 12

延伸阅读

  • Daniel Kahneman,《Thinking, Fast and Slow》第10章 — “小数定律的信仰”与人类忽略样本量的心理机制
  • Nassim Taleb,《Fooled by Randomness》— 随机性如何在投资和生活中制造虚假的成功叙事
  • Michael Mauboussin,《The Success Equation: Untangling Skill and Luck》— 如何用统计方法区分能力与运气
  • John Ioannidis, “Why Most Published Research Findings Are False”(2005)— 样本量不足和多重检验如何导致大量虚假的科学发现
  • Peter Bevelin,《Seeking Wisdom: From Darwin to Munger》— 芒格思维体系中概率和证据标准的角色