从被忽视和怀疑到深刻影响社会,因果推断改写思想史_风闻
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!1小时前
因果推断(Causal inference)用于确定一个事件(“因”)是否以及如何引发另一个事件(“果”)。它的核心目的是理解变量之间的因果关系,而不仅仅是它们之间的相关性。因果推断在许多领域都非常重要,包括医学、计算机科学、社会科学、经济学、哲学,等等。本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景。
撰文 | 丁鹏(加州大学伯克利分校统计系副教授)
1 引言
探求事物的原因,是人类永恒的精神活动之一。从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系的思考。比如,亚里士多德就在《物理学》(Physics)和《形而上学》(Metaphysics)两书中反复强调,我们只有知道了事物的原因,才能算真正理解这个事物。又如,屈原在《天问》开篇,就追问日月星辰运行的原因。
长期以来,人们一方面好奇地追问原因和结果的关系,一方面又苦于这些概念的模糊性。于是,这些话题在很长一段时间都仅仅局限在哲学和文学的范围内。精确地描述因果关系,尤其是用数学的语言来描述因果关系,则是非常近代的事情了。这一项思想飞跃,得益于现代统计学的发展。统计学家称之为“因果推断”(causal inference)。虽然因果推断在现代统计学的萌芽阶段就已经产生,但是它的发展并非一帆风顺:它长期被主流忽视、怀疑甚至攻击。直至最近四十年,尤其是最近十年,它才得到了广泛的认可和大力的研究,成为当今主流的研究方向之一。在最近的一篇文章中,Andrew Gelman和Aki Vehtari评选了过去五十年中,统计学最重要的八个想法,排名第一的就是因果推断[1]。当今世界,很多年轻的学者加入了因果推断的研究,他们来自统计学、经济学、社会学、政治科学、教育学、流行病学、计算机科学、哲学等等领域。毫不夸张地说,统计因果推断的研究迎来了它发展的黄金时代。
本文将回顾统计因果推断的历史背景,评述中国因果推断研究的现状,并且大胆推测它未来的发展前景。
2 哲学基础:因果推断何以成为可能?
亚里士多德《物理学》的一个英译本。这本书的Book II 3的开篇写道:“Knowledge is the object o four inquiry, and men do not think they know a thing till they have grasped the ‘why’ of it (which is to grasp its primary cause)”,翻译成中文就是,我们探索的目标是知识,只有掌握了“为什么”,才算真正理解一个事物,即,掌握该事物的根本原因。
人们常常问关于原因和结果的问题。比如,某人死于肺癌,是不是因为他常常吸烟导致的?比如,我感冒症状减轻了,是不是因为服用了维生素C片导致的?比如,大学教育是否能够提高收入水平?类似的问题,充满了我们的日常生活。
但是,这些看似直接了当的问题,却不容易回答。比如,有人吸烟,却没有得肺癌;有人不吸烟,却得了肺癌。比如,我可能仅仅喝白开水,感冒也会自己消失。比如,有人没有上大学,却做生意发了大财。当然,有点概率论常识的人很容易意识到,这些事件都带有随机性。从经验中,我们可能观察到吸烟的人更可能得肺癌;服用维生素C的人,平均来说,自我感觉感冒恢复得更快;上过大学的人平均收入更高。但是,这些统计上的“相关关系”是否就是“因果关系”呢?
大部分西方哲学家都认为因果关系是一条本质的、似乎毋庸置疑的定律。但是,苏格兰哲学家大卫•休谟(David Hume,1711-1776)曾经抛出了一条惊人的论点。简言之,他认为人类仅仅凭经验,只能认识事物之间恒定的前后相继关系(constant conjunction),并不能认识任何因果关系。很多哲学家都努力回应休谟的质疑,因为若是承认休谟是对的,那么知识何以成为可能?若人类的知识仅仅是经验性的前后相继关系,那么人类似乎没有拥有任何“心智的荣耀”[2]。
休谟的名著《人性论》对哲学史产生了深远的影响,他指出了归纳推理的缺陷,认为我们对因果关系的信念仅仅来自于习惯(habit)和传统(custom)。
哲学家们对休谟的回应似乎都是徒劳的。我在学生时代曾经上过邓晓芒教授“康德哲学”的课,他就直言,休谟是驳不倒的。的确,休谟这样的彻底的怀疑论者,是无法驳倒的。我回顾休谟的高论,并非想卖弄哲学史,因为休谟是绕不开的:无论何时何地,只要谈及因果推断,就可能有人引用休谟的论点质疑你问题的合理性。也正是因为休谟这种近乎诅咒似的言论,使得因果推断的数学化步履维艰。
然而,上个世纪统计学的几项辉煌成果改写了思想史。如今人们已经不再羞于讨论因果关系,统计因果推断的语言,深入到了几乎所有的应用领域。这些成果也许并没有完全解决休谟的问题,但是它们给出了因果关系新的思考方式和推理框架。下面,我将分三部分回顾历史。
3 统计学中“哥白尼式的革命”:内曼的“潜在结果”模型
1923年,耶日•内曼(Jerzy Neyman,1894-1981)还是波兰华沙大学的博士生,他的毕业论文是“概率论在农业实验中的应用”[3]。在这篇论文中,他提出了用于因果推断的“潜在结果”(potential outcomes)的数学模型,并将它和统计推断结合起来。他的想法非常自然,数学结构也很简单。下面简单地回顾一下。
年轻时的内曼。内曼是加州大学伯克利分校统计系的创始人(照片由该系提供)。
上面仅仅讨论了一个最简单的数学结构:两个组的随机化实验中的因果推断。现实中的随机化实验丰富多彩,如何在各种随机化实验中做因果推断取决于具体的实验设计方案。内曼本人于1935年在英国皇家统计学会宣读的论文,讨论了随机区组设计(randomized block design)和拉丁方设计(Latin squares design)的因果推断,引发了包括罗纳德•费希尔(Ronald Fisher)在内的统计学家的激烈争论。同时期,费希尔对随机化实验进行了深入的研究,虽然他没有使用内曼潜在结果的记号,但是因果推断始终是他思考的对象。随后的几十年,随机对照实验(randomized controlled trial;RCT)成为美国食品药品监督管理局批准新药的黄金标准。最近二十年,大量的随机化实验出现在社会科学中,用来研究复杂社会问题中的因果关系。比如,麻省理工学院和哈佛大学的三位经济学家,Abhijit Banerjee,Esther Duflo和Michael Kremer,因为用实验的方法研究发展经济学,获得了2019年的诺贝尔经济学奖。
内曼生前对自己在统计假设检验方面的奠基性工作颇为自豪,认为那是统计学中“哥白尼式的革命”(Copernican Revolution)[5]。他并未预料他在因果推断的奠基性工作,也将产生深远的影响。这个影响则是由唐纳德•鲁宾(Donald Rubin)开启的。
4 统计学的拓荒者:鲁宾关于观察性研究中的因果推断的研究
从直觉上,也许大家不会对随机化实验中的因果推断感到惊奇。毕竟随机化实验保证了两个组在平均意义下是相似的,那么他们之间的区别就可以归因于不同肥料对产量的因果作用。但是,现实的统计问题,很多数据收集并非源自随机化实验——这类研究通常被称为观察性研究(observational study)。比如,如果要研究吸烟和肺癌的因果关系,基本的伦理不允许我们随机地让一部分人抽烟、让一部分人不抽烟。再如,研究大学教育对收入的影响,我们不能随机地让一部分人上大学、让一部分人不上大学。很多流行病学和社会科学的问题,本质上一定是观察性研究,人们也迫切地想从这些观察性研究中获得关于因果关系的知识。
虽然潜在结果模型成功地数学化了随机化实验中的因果推断,但是它长期并未用于观察性研究——内曼本人是持怀疑态度的,因为缺乏随机化,观察性研究有太多复杂性,比如抽烟的人和不抽烟的人,可能就是两群完全不同的人,不具有可比性。虽然他从未尝试用他的潜在结果模型分析观察性数据,但是他间接地启发了一些更加有冒险精神的学者。其中一人就是鲁宾[6]。
鲁宾教授正在作报告(截屏自https://www.youtube.com/watch?v=N4tQC3elGK4)
鲁宾认为,观察性研究也对应着一个假想的随机化实验,因此内曼的潜在结果模型可以用来定
鲁宾称这个条件为“可忽略性”(ignorability)。这个条件还有很多其他名字:流行病学家常常称之为“无混杂性”(unconfoundedness);经济学家常常称之为“可观测的选择机制”(selection on observables)。在可忽略性下,我们可以通过简单的数学推导得到下面的结果:
Rosenbaum和鲁宾的这篇文章是Biometrika这个杂志创刊以来引用率最高的两篇文章之一[7]。在它发表后的三十多年里,引起了很多理论统计学家和应用统计学家的兴趣,他们提出了很多推广的、更加精致的理论和方法,这些理论和方法被用在流行病学、经济学、政治科学等诸多学科的研究中。
虽然内曼的因果推断的文章为老一辈的统计学家所熟知,但是在很长一段时间它几乎销声匿迹了。它不仅仅不在观察性研究中被使用,也不在随机化实验中被使用。从上个世纪七十年代开始,鲁宾写了一系列文章告诉大家,潜在结果是思考统计因果推断的有力武器,但是他的文章起初并不被统计杂志所接受。多年以后,他这些在当时看来离经叛道的文章使他成为名副其实的统计学的拓荒者。
这个简单模型,无法讨论这个问题。在计量经济学中,这被称为“联立方程模型”(simultaneous equation model)。第二个问题是,可忽略性假定的合理性如何判定?这个条件独立性不可能被观测数据验证,那么我们如何能相信由它导出的数学结果呢?费希尔曾经质疑吸烟导致肺癌的研究,他认为,可能存在一个基因,它既导致人更容易吸烟,也导致人更容易得肺癌,所以我们看到的吸烟和肺癌之前的相关性可能是虚假的因果作用。如果我们遗漏掉了关于这个基因的信息,那么鲁宾要求的可忽略性就不成立。
费希尔否定吸烟导致肺癌
第一个问题不太容易有简单的解答。珀尔试图回答第二个问题。简言之,回答第二个问题,需要更多的关于数据生成机制的知识,而图模型是描述数据生成机制的一种有力工具。他提出了新的因果推断的范式,在某些条件下重新推导出了鲁宾的结果,并且得到了新的结果。
5 人工智能的“因果革命”:珀尔对图模型的因果解释
珀尔工作的雏形是图模型。直观上,这种模型用图来刻画条件分布,尤其是变量之间的条件独立性[9]。很多统计学家非常习惯用一个有向无环图(directed acyclic graph;DAG)来表示数据的生成机制。珀尔创造性地赋予了它因果关系的解释,并给了一系列运算法则。
用上面的图,如何思考因果关系的问题呢?珀尔引入了do算子,表示干预某个随机变量到某个值,这类似我们在实验中控制某个变量。我先给一般的公式,再给具体的例子。一般地,
即do算子和通常的条件概率在一般情况下是不同的。这也说明了,仅仅用传统概率论的语言,不足以定义因果作用。内曼和鲁宾用潜在结果,珀尔则用do算子。
来看一个具体的例子。从上面的DAG我们可以得到
珀尔给出了一些更加有趣的结果:某些情况下,我们并不需要观测到所有的变量,也可以识别因果作用。下面用上面的DAG作为例子,解释他提出的“后门准则”(backdoor criterion)和“前门准则”(frontdoor criterion)。更一般的数学结果需要更多的术语和技术细节;感兴趣的读者可以参见珀尔的文章和专著[10]。
5.1 后门准则
鲁宾和珀尔的理论至此殊途同归。为了研究两个变量之前的因果关系,我们需要观测他们的“共同原因”(common cause),即,那些既影响原因又影响结果的变量。否则,鲁宾认为可忽略性不成立,而珀尔认为后门准则的条件不成立。
5.2 前门准则
珀尔的后门准则并没有给统计学家带来很大的惊喜,因为他给的公式在形式上并不是新的。但
珀尔和他的畅销书《为什么》,图片来自:https://momentmag.com/author-interview-judea-pearl/