# 相关不等于因果
Correlation ≠ Causation
1999年,一位哈佛公共卫生学院的流行病学家发表了一项引人注目的研究。他分析了数十个国家的数据,发现一个惊人的统计相关性:一个国家的巧克力消费量和该国诺贝尔奖得主数量之间,存在极强的正相关关系。
相关系数r = 0.79。在社会科学中,这是一个令人震惊的高数字——大多数“显著”的研究发现只有r = 0.3左右。
按照这个相关性,如果瑞典想多拿一个诺贝尔奖,全国人民大约需要多吃1000万公斤巧克力。
这项研究发表在《新英格兰医学杂志》上——全球最权威的医学期刊之一。
它当然是一个精心设计的讽刺。作者Franz Messerli用一个荒谬但统计上“完美”的例子,展示了一个深刻的问题:两个变量之间的强相关性,本身不能证明任何因果关系。
巧克力不会让你变聪明。诺贝尔奖也不会让你想吃巧克力。真正的解释是一组共同的背景因素——富裕国家的人均巧克力消费更高(因为买得起),富裕国家也有更好的教育和科研体系(所以诺贝尔奖更多)。巧克力和诺贝尔奖各自和“国家富裕程度”有因果关系,但彼此之间没有。
这个例子之所以有趣,是因为它荒谬到所有人都能看穿。但在商业、投资和日常决策中,我们每天都在犯同样结构的错误——只不过场景没有这么荒谬,所以我们看不穿。
三种“假因果”的基本结构
两个变量之间出现统计相关性,背后可能是什么?逻辑上只有几种可能:
可能一:A导致B。 这是真因果。吸烟导致肺癌。你按下开关,灯亮了。
可能二:B导致A。 因果方向反了。不是“成功企业都投入大量研发”说明“研发导致成功”,也可能是“成功的企业有更多利润可以投入研发”——是成功导致了研发投入,而非反过来。
可能三:C同时导致A和B。 这是最常见的情况,叫做“混杂变量”(confounding variable)或“共同原因”。冰淇淋销量和溺水事件正相关——不是因为冰淇淋导致溺水,而是因为炎热的天气(C)同时增加了冰淇淋销量(A)和户外游泳人数(B),游泳人数增加导致溺水事件增加。
可能四:纯粹的巧合。 在足够大的数据海洋中,你总能找到两个碰巧相关的变量。有一个网站(tylervigen.com)专门收集荒谬的虚假相关——比如“美国缅因州的离婚率”和“人均人造黄油消费量”之间r = 0.99的相关性。这不需要任何解释,它就是随机噪声在大数据中的必然产物。
理解这四种可能性,是正确思考任何相关性的起点。每次有人告诉你“A和B相关”,你的大脑应该自动弹出一个菜单:真因果?反向因果?共同原因?纯巧合?
吸烟与肺癌:因果关系如何被确立
如果相关不等于因果,那么真正的因果关系要怎么证明?
历史上最精彩的案例之一,是吸烟与肺癌之间因果关系的确立过程。它花了几十年,卷入了科学、政治和巨额利益的博弈,展示了从“相关”走向“因果”需要多么严格的证据标准。
1950年代初期,流行病学家Richard Doll和Austin Bradford Hill发表了一系列研究,显示吸烟者患肺癌的概率显著高于非吸烟者。相关性是明确的。
但烟草行业立刻抓住了“相关不等于因果”这个论点进行反击。他们的论证逻辑是:
“也许有一种未知的基因,既让人更容易对尼古丁上瘾(所以这些人吸烟),又让人更容易得肺癌。如果是这样,吸烟和肺癌只是共同基因(混杂变量)的两个结果,吸烟本身并不致癌。”
这个反驳在逻辑上是有效的。它正是“可能三”的结构——一个共同原因同时导致了吸烟和肺癌。
那么科学家是如何最终确立因果关系的?他们做了几件关键的事:
第一,剂量-反应关系。 研究发现,吸烟越多的人,肺癌风险越高。每天一包的人比每天半包的人风险高,每天两包的人比一包的人风险更高。这种“剂量-反应”关系很难用混杂变量来解释——如果只是因为某种基因同时导致吸烟和肺癌,那为什么吸烟量的多少会影响肺癌风险?
第二,时间顺序。 前瞻性研究(先记录谁吸烟,然后追踪多年后谁得了肺癌)证实了吸烟在先、肺癌在后的时间顺序。这排除了“反向因果”——不是肺癌让人想吸烟。
第三,戒烟后风险下降。 如果因果关系是真实的,那么去除原因(戒烟)应该减少结果(肺癌)。数据证实,戒烟者的肺癌风险会随时间逐渐下降,虽然永远不会完全降到非吸烟者的水平。这是强有力的因果证据——如果吸烟和肺癌只是共同基因的结果,戒烟不应该改变任何事情。
第四,生物学机制。 实验室研究揭示了烟草中的焦油和特定化学物质如何在细胞层面导致DNA损伤和突变。一旦因果链条的物理机制被阐明,“虚假相关”的辩护就站不住脚了。
第五,多条独立证据线的汇聚。 流行病学数据、剂量-反应关系、时间顺序、戒烟效果、生物学机制——五条独立的证据线都指向同一个结论。任何单一证据都不能“证明”因果关系,但当多条独立的证据线汇聚时,虚假相关的可能性变得微乎其微。
Austin Bradford Hill后来总结了判断因果关系的九条标准(Hill's criteria),至今仍是流行病学和公共卫生领域的黄金标准。其中最重要的几条——强度、一致性、时间顺序、剂量-反应关系、生物学合理性——正是从吸烟-肺癌案例中提炼出来的。
这个故事的教训不是“相关永远不能证明因果”,而是从相关走向因果需要极其严格的、多维度的证据积累。 一条相关性只是一个线索,它开启了一项调查,而不是结案了一桩案件。
商业世界的因果幻觉
现在让我们把目光转向芒格最关注的领域——商业和投资。
商业分析中最常见、最危险的逻辑错误之一就是:“成功企业都做了X,所以做X就能成功。”
这个推理的结构是:观察到“做X”和“成功”之间的相关性,然后假设因果关系。但它犯了至少两个严重错误。
错误一:幸存者偏差。 你只看到了做X并且成功的企业,你没看到做X但失败的企业。如果有100家企业都做了X,其中10家成功了、90家失败了,你在商业畅销书中只会读到那10家的故事。然后你得出结论“做X是成功的关键”——但实际上X的“成功率”只有10%。
错误二:反向因果或共同原因。 成功企业投入大量资金搞企业文化建设、员工培训、办公环境美化。你可能推断“好的企业文化导致了成功”。但也许因果是反过来的——是成功(利润丰厚)让企业有资源去搞这些东西。或者有一个共同原因——卓越的管理层既能创造好业绩,也重视企业文化。企业文化和业绩都是好管理层的结果,而不是彼此的原因。
吉姆·柯林斯(Jim Collins)的畅销书《从优秀到卓越》(Good to Great)在2001年出版时引起轰动。柯林斯研究了11家从“优秀”跃升为“卓越”的公司,提炼出了它们的共同特征——“第五级领导力”“刺猬理念”“飞轮效应”等等。这本书卖了数百万册,被无数企业家奉为圣经。
但随后的二十年暴露了一个尴尬的事实:那11家“卓越”公司中,有好几家后来表现平庸甚至灾难性地失败了。电路城(Circuit City)破产了。房利美(Fannie Mae)在2008年金融危机中被政府接管。富国银行(Wells Fargo)陷入了大规模的假账户丑闻。
这不一定说明柯林斯的分析全是错的。但它确实说明:从事后观察中提炼的“成功要素”极其不可靠,因为你无法排除回归均值、幸存者偏差和混杂变量的影响。 那些公司在研究期间表现卓越,可能有一部分是真正的能力,有一部分是时代机遇,还有一部分是纯粹的好运。当运气和时代红利消退后,它们“回归”了——而那些被归纳为“卓越特征”的东西并没有保护它们。
芒格对这类商业研究始终保持高度怀疑。他的方法论恰恰相反——不是从成功案例中归纳成功要素(归纳法的陷阱),而是从失败案例中识别致败因素(逆向思维的力量)。“告诉我我会死在哪里,我就不去那里。”
大数据时代:相关性的诱惑变得更危险了
如果说在传统的数据稀缺时代,混淆相关与因果已经是一个严重问题,那么在大数据时代,这个问题正在以指数级加剧。
当你有足够多的变量和足够多的数据,你几乎必然能找到统计上“显著”的相关性——即使所有变量都是随机生成的。这是纯粹的数学事实,叫做“多重比较问题”(multiple comparisons problem)。
假设你测量了1000个不同的变量——从股市回报到月相到总统的Twitter发帖频率。你两两配对寻找相关性,总共有近50万个可能的配对。在5%的显著性水平下,你会期望找到大约25000个“统计显著”的相关性——纯粹靠随机。
这正是大数据分析中实际发生的事情。算法在海量数据中搜索模式,然后呈上一堆“发现”。这些发现中有一些是真正的信号,但大量只是噪声伪装成信号。区分两者需要的不是更多的数据,而是更好的因果推理。
谷歌曾经有一个著名的项目叫“Google Flu Trends”,试图通过搜索数据来预测流感爆发。它的逻辑是:当一个地区搜索“流感症状”“发烧怎么办”的人数激增时,说明该地区流感正在爆发。最初几年效果不错——搜索数据和流感数据高度相关。
然后它开始系统性地高估流感。因为人们搜索“流感症状”有很多原因——媒体报道引发的焦虑、季节性的健康意识提高、甚至是一部关于传染病的电影上映。搜索量和流感之间的相关性不是稳定的因果关系,而是一种脆弱的、随时可能被第三方因素打破的统计巧合。Google最终在2015年停止了这个项目。
这个教训对投资者尤其重要。量化交易策略经常基于历史数据中发现的统计模式。“每当X指标达到Y水平时,市场在接下来Z天内上涨的概率是W%。”但这种模式可能只是历史数据中的噪声——在足够长的历史和足够多的指标中,你总能找到看似有效的模式。关键问题是:这个模式背后有可理解的因果机制吗? 如果没有,它很可能只是数据挖掘的产物,在未来不会重复。
反向因果:你以为的原因可能是结果
反向因果是商业分析中一种隐蔽且普遍的错误。
案例一:广告和销量。 一家公司的广告支出和销量正相关。营销部门兴奋地报告:“广告每增加100万,销量增加500万。”但等等——也许是因为销量好的时候公司有更多预算投广告?也许是因为销量的季节性波动(比如圣诞节前销量天然高)和广告支出的季节性波动(圣诞节前广告预算天然高)恰好同步?因果方向可能完全反了。
案例二:教育和收入。 受过更多教育的人平均收入更高。这看起来说明“教育导致高收入”。但一部分因果可能是反向的:来自富裕家庭的孩子(已经有高收入的“基因”和资源)更容易接受更多教育。还有一种可能是“信号模型”——教育不是因为教了你有用的东西所以让你收入高,而是因为它向雇主发出了一个信号:“这个人足够聪明和勤奋,能完成四年大学”,雇主为这个信号买单。如果信号模型是对的,那么教育和收入之间的关系不是简单的“教育导致能力提升导致收入增加”这种因果链。
案例三:员工满意度和公司业绩。 大量研究发现两者正相关。管理顾问据此建议:“提高员工满意度,公司业绩就会改善。”但也许是公司业绩好(利润高、增长快、发更多奖金)导致员工更满意?如果是这样,试图通过提高满意度来改善业绩就是搞反了因果方向——你应该先改善业绩,满意度自然会跟上。
芒格在评估商业建议时,一个本能的反应就是问:“因果方向是不是反了?”这个简单的问题可以过滤掉大量看似有理的商业策略。
如何正确地从相关走向因果
既然相关不等于因果,那我们在现实中如何建立因果关系?完美的方法只有一个:随机对照实验(RCT)。
你想知道一种新药是否有效?把患者随机分成两组——一组吃真药,一组吃安慰剂。“随机”是关键——它确保两组在所有可能的混杂变量(年龄、性别、基因、生活方式等等)上平均来说是一样的。如果吃真药的那组效果更好,你就可以相当有信心地说:这是药物的因果效果,而不是混杂变量的作用。
但在商业和投资中,完美的随机对照实验几乎不可能做。你不能把1000家公司随机分成两组,让一组实施某种战略、另一组不实施,然后比较结果。你只能观察自然发生的数据,而观察数据中混杂变量无处不在。
在无法做实验的情况下,以下几种方法可以帮助你更接近因果推理:
方法一:自然实验。 寻找现实中“接近随机”的情境。比如,一项新法规在某个州实施而在邻近的相似州没有实施,你可以比较两个州的结果差异。这不如真正的随机实验好,但远好于简单的相关性分析。
方法二:Hill准则。 回到前面吸烟-肺癌的案例。检查相关性是否满足:强度大、在不同人群中一致、时间顺序正确、有剂量-反应关系、有合理的因果机制。满足的条件越多,因果关系越可信。
方法三:反事实思维。 问自己:“如果A没有发生,B还会发生吗?”这是因果关系的定义性检验。新CEO上任后业绩改善了——如果没换CEO,业绩是否也会改善(因为回归均值)?一家公司实施了新战略后收入增长了——如果没实施新战略,行业整体是否也在增长?
方法四:寻找反面证据。 如果“做X导致成功”是真的,那么“不做X”的企业应该大多不成功,而且“做X但失败”的案例应该很少。如果你发现大量“不做X但也成功”或“做X但失败”的案例,那么X和成功之间的因果关系就很可疑。
芒格思维中的因果纪律
混淆相关与因果为什么在芒格的思维体系中如此重要?因为它是几乎所有其他认知错误的底层基础设施。
受简单联想影响的倾向 本质上就是把相关当因果。你在某个场所遇到了一件好事,你就对那个场所产生好感——仿佛那个场所“导致”了好事。你第一次买某只股票赚了钱,你就对它有特殊感情——仿佛那只股票本身有某种“好运属性”。
奖励和惩罚超级反应倾向 在被错误的因果推理放大时尤其危险。如果你错误地认为“做X导致了好结果”(实际上只是相关),你就会激励自己和他人继续做X——在一个错误的方向上越走越远。
社会认同倾向 更是虚假因果的放大器。当一个“成功秘诀”被广泛传播时,越来越多的人相信它、实施它。如果最初的“秘诀”只是相关性的误读,那么社会认同会把一个统计错误变成一种文化信念。
芒格对待因果关系的态度可以总结为一种纪律:永远对因果声明保持怀疑,除非你能清楚地阐述因果机制,并且排除了主要的替代解释。
这不意味着你需要100%的确定性才能行动——在现实世界中,100%的因果确定性几乎不存在。但它意味着你应该:
1. 明确知道你的因果判断的置信度有多高
2. 识别出最重要的替代解释是什么
3. 知道什么样的新证据能改变你的判断
4. 不要在低置信度的因果判断上下重注
这就是芒格式决策纪律的核心:在因果关系清晰的时候下重注(少数几次大的投资决策),在因果关系模糊的时候保持谦逊和等待。
如何在日常中使用“相关不等于因果”思维
第一,遇到相关性声明时,自动运行四种可能性检验。 A导致B?B导致A?C同时导致A和B?纯巧合?养成这个思维习惯,你就能过滤掉大量的垃圾推理。
第二,警惕“成功企业都做X所以做X能成功”的逻辑。 这是商业世界中最普遍的因果谬误。下次有人向你推销一种商业策略或管理方法时,问三个问题:有没有做X但失败的案例?有没有不做X但成功的案例?因果方向是不是反了?
第三,对自己的“经验”保持怀疑。 你做了某件事,然后好的结果发生了。这不证明那件事导致了好结果。也许是回归均值,也许是其他因素,也许是纯粹的运气。个人经验是最容易被因果幻觉污染的数据来源,因为样本量极小、混杂变量无法控制、情感偏见无处不在。
第四,寻找因果机制。 当有人声称A导致B时,要求他解释“怎么导致的”——具体的传导路径是什么?如果他能描述一个合理的、具体的因果链条(A通过X影响Y,Y再影响B),这比单纯的统计相关性可信得多。如果他只能说“数据显示它们相关”,那你应该大打折扣。
第五,主动寻找反面案例。 确认偏误(避免不一致性倾向的近亲)让人只关注支持自己因果信念的证据。对抗它的最好方法是刻意寻找反面:如果我的因果判断是错的,我应该能看到什么?然后去找那些东西。如果你找不到反面证据,你的信心可以提高;如果你找到了,你需要更新判断。
谦逊作为认知武器
让我们回到开头的巧克力和诺贝尔奖。
那个r = 0.79的相关性是真实的、可重复的、统计显著的。但没有一个理性的人会因此建议瑞典政府发放免费巧克力来增加诺贝尔奖数量。因为我们知道这个相关性是虚假的——或者更准确地说,是由共同的背景因素(国家富裕程度)驱动的。
但想象一下,如果这个相关性不是巧克力和诺贝尔奖,而是“企业数字化转型投入”和“股价上涨”呢?同样的相关性结构,同样可能被共同因素驱动(比如行业景气度同时推高了IT预算和股价),但因为它听起来“合理”,你就更容易接受“数字化转型导致股价上涨”这个因果声明。
相关性的危险不在于它荒谬的时候——荒谬的相关性人人都能识别。它的危险在于它“看起来合理”的时候——因为合理性让你放松了因果推理的纪律。
芒格的智慧体系在这里提供了一种深层的保护:谦逊。 承认世界的因果结构比你以为的复杂得多。承认你的大脑有一种不可遏制的冲动去在随机噪声中编织因果故事。承认你看到的大部分“规律”可能只是相关性——甚至只是巧合。
这种谦逊不是认知上的软弱。恰恰相反,它是认知上的力量。因为只有当你停止在虚假的因果关系上浪费精力时,你才有空间去寻找真正的因果关系。而真正的因果关系——一旦被找到、被验证、被理解——才是持久竞争优势的来源。
在一个充斥着虚假因果的世界里,能正确区分相关与因果的人,拥有一种安静的、但几乎不可战胜的优势。
芒格相关原话
“I think the idea that you can just correlate things and figure out cause is one of the most toxic things you can do.”
“我认为仅凭相关性就推断因果关系,是你能做的最有害的事情之一。”
“You must know the big ideas in the big disciplines and use them routinely — all of them, not just a few.”
“你必须了解各主要学科中的大思想,并且常规性地使用它们——所有的,而不只是其中几个。”
这句话和因果推理直接相关——因为正确的因果判断需要多学科的知识。一个只懂金融的人看到两个金融变量相关,容易做出错误的因果推理。但如果他同时懂心理学、物理学、生物学,他就能想到更多的替代解释、更多的混杂变量、更多的因果机制。
“All I want to know is where I'm going to die, so I'll never go there.”
“我只想知道我会死在哪里,这样我就永远不去那个地方。”
在错误的因果推理上下重注,是“死的地方”之一。
关联模型
实践检查清单
遇到相关性声明时:
- □我是否检验了四种可能性——真因果、反向因果、共同原因、纯巧合?
- □因果方向是否可能反了?“A导致B”还是“B导致A”?
- □是否存在可能的混杂变量(共同原因)?什么因素可能同时影响了A和B?
- □这个相关性在不同时间段、不同人群、不同条件下是否稳定?
评估因果声明时:
- □声明者是否提供了具体的因果机制(A如何导致B的传导路径)?
- □是否有剂量-反应关系(更多的A是否导致更多的B)?
- □时间顺序是否正确(A是否在B之前发生)?
- □有没有“做A但B没有发生”或“没做A但B发生了”的反面案例?
做商业决策时:
- □“成功企业都做X所以做X能成功”——我是否考虑了幸存者偏差?
- □我是否在自己的经验中错误地建立了因果关系(样本量太小、混杂变量未控制)?
- □我是否在因果关系不清晰的判断上下了过大的赌注?
延伸阅读
- Judea Pearl,《The Book of Why》— 因果推理领域最重要的现代著作,彻底改变了你对因果的理解
- Daniel Kahneman,《Thinking, Fast and Slow》— 人类如何在随机性中“看到”并不存在的因果模式
- Austin Bradford Hill, “The Environment and Disease: Association or Causation?”(1965)— 判断因果关系的经典九条标准
- Tyler Vigen, “Spurious Correlations”(tylervigen.com)— 大量荒谬但统计显著的虚假相关案例集
- Jim Collins,《Good to Great》vs. Phil Rosenzweig,《The Halo Effect》— 后者系统性地批判了前者的因果推理方法
- Peter Bevelin,《Seeking Wisdom: From Darwin to Munger》— 芒格思维体系中因果推理的角色