论文原文链接:http://dx.doi.org/10.1186/s40535-016-0018-x

摘要

这篇论文介绍了因果推断中的核心概念和原则、从独立同分布数据和时序数据中进行因果发现的方法。论文主要分为以下5个部分:

  1. 干预因果模型样本预测模型因果预测模型结构因果模型等概念。
  2. 基于约束的因果发现方法,该方法依赖于数据中的条件独立关系。
  3. 基于结构方程模型的因果发现方法,其关键问题在于如何确定变量间因果关系的方向。误差项和因变量之间的独立性以及结构方程上适当的结构约束使之成为可能。
  4. 时序数据上的因果发现问题中的难点。
  5. 因果发现与推理中的一些开放性问题。

背景

很多科学的目的都是理解变量间的相互影响机理,预测群体(population,一组变量)受到外界干预后的变化情况。找到变量取值的机制,或在其他变量被干预后预测变量的值,是因果推断的特征。如果只有观测数据可用,预测干预的效果就包括从一个概率密度(未干预的群体)中采样和推断另一个概率密度(干预后的群体)中变量的值。

许多基本问题和基本假设在各个领域中都是一样的。尽管因果推断和传统的有监督机器学习算法很相像(都包括模型搜索和特征选择,模型有重合部分,一些模型评估方法也是通用的),这些相似度会掩藏两种问题间的重要差别。

历史

有很多方法可以用来因果发现。因果发现的黄金标准是计划或随机试验。但在很多情况下出于可行性或伦理角度上的考虑,无法应用随机试验。另外,目前的数据采集技术和因果推断问题导致了一些实践上的困难,为了解决所有问题,需要做太多试验。

干预和条件(Manipulating and conditioning)

条件概率通常是非平凡的,因为用于计算条件概率的样本量通常很小。大量统计和机器学习方法都基于一些假设从真实样本中估计条件概率。

假设目标是寻找一个的预测器,给定一组观测到的协变量\(\bf{O}\),预测目标变量\(Y\)的值,称作Problem 1。\(Y\)的值由预测函数\(\hat{Y}_n(\bf{O})\)表示,\(\hat{Y}_n(\bf{O})\)预测的好坏由均方预测误差(MSPE)表示,表达式为\(E[(Y-\hat{Y}_n(\bf{O}))^2]\),其中期望值取密度\(p(\bf{O},Y)\)。除了从随机变量当前和过去的值中预测未来的值,条件概率还可以用作预测当前的隐藏值。

Problem 1
Problem 1

干预概率

干预密度通过对群体实施干预得到,可能跟任何可观测条件密度不相等。干预概率密度可以用作预测对群体实施干预后的影响,而不是观察给定的变量。干预\(M\)指定了一组变量上的新的条件概率密度。如果\(\bf{X}\)\(\bf{O}\)是两组服从密度为\(p(\bf{X}|\bf{O})\)的变量,干预\(M\)将密度改变为\(p'(\bf{X}|\bf{O})\)。干预概率被用作决策理论,不同决策中的行动就是干预。记一组变量\(\bf{V}\)经过干预\(M\)后的密度为\(p(\bf{V}||M)\),假定每个干预都是理想的:

  1. 每个干预都能产生符合预期的效果。
  2. 每个干预都不产生副作用,只直接影响被干预变量。

概率模型定义了\(\bf{O}\)上的一个概率密度,因果模型定义了\(\bf{O}\)上的一组概率密度,因果模型中的所有干预包括了不做干预,因此概率模型是因果模型的一个特例。给定一组变量\(\bf{V}\),变量间的因果关系由有向图表示,其中从\(A\)\(B\)的边表示\(A\)\(B\)的一个直接因变量。

我们把给定一个未干预密度、一组从干预密度中采样得到的样本(可能没有)和一些背景假设,估计干预密度的问题定义为Problem 2。条件概率可以从样本中估计,但干预密度则截然不同,估计干预密度的黄金标准是试验。然而,在很多情况下试验代价高昂,困难,或者不合伦理。推理所需的真正因变量可能不在变量集中,使问题变得更加复杂。Problem 2通常分为两个部分:1) 从样本数据、干预试验和背景假设中找出一组因果模型;2) 给定一个因果模型,预测干预结果。 Problem 2 Problem 2a Problem 2b

Problem 2a之所以输出一组因果模型而不是一个,是因为在某些情况下无法根据给定输入确定一个真实的因果模型。另外,与预测模型不同,即使从未干预群体中导出了正确的因果模型,由于因果模型可以预测可能实际不存在的干预群体,使用未干预群体无法验证因果模型。这也严重阻碍了因果模型构造算法的提升,使算法性能评估变得困难。

结构方程模型(Structural equation models)

结构方程模型(SEM)中的随机变量集可划分为误差项实质性变量(没有标准术语)两个子集。实质性变量是感兴趣的变量,但不必全部观察到。每个实质性变量都是其它实质性变量集\(\bf{V}\)和唯一的误差项\(\varepsilon_X\)的函数,即\(X:=f(\bf{V},\varepsilon_X)\)。用赋值符而不是等号是因为这个方程用因果解释,干预\(\bf{V}\)中的变量会导致\(X\)的改变。

每个SEM都可以表示成有向图,图的顶点是实质性变量,从\(A\)\(B\)\(A\to B\))的有向边表示结构方程中\(A\)\(B\)的系数非0。在线性SEM中,结构方程中系数\(b_{B,A}\)与边\(A\to B\)的结构系数相关联。SEM的图可能包含环(变量到自身的路径);也可能显式包含双向箭头连接的误差项\(\varepsilon_A \leftrightarrow \varepsilon_B\),表示这两个误差项相互依赖,如果没有这样的边,就假定误差项相互独立。如果变量没有入边,它就是外源性的,否则就是内源性的。在Fig.1 a表示的SEM \(K(\bf{\theta})\)\(\bf{\theta}\)\(K\)的参数)中,\(A\)是外源性的,\(B\)\(R\)是外源性的。如果图中没有有向环或双向箭头,那么它就是有向无环图(DAG)

Fig.1 a Unmanipulated causal graph K; b B Manipulated to 5; c A Manipulated to 5
Fig.1 a Unmanipulated causal graph K; b B Manipulated to 5; c A Manipulated to 5

\(K\)的联合概率密度可以表示为每个变量关于父结点的条件概率的乘积,即\(p(A,B,R)=p(A)p(B|A)p(R|A)\)。这样的因式分解等价于实质性变量间的条件独立关系。

有待翻译
有待翻译

SEM中干预的表示

给定线性SEM,群体中变量\(X_i\)可以描述为方程\(X_i=\sum_{X_j\in PA(X_i)}b_{i,j}X_j+\varepsilon_i\),其中所有变量都是干预后变量,\(PA(X_i)\)\(X_i\)的因变量集合,最简单的情况是\(X_i\)是常数\(c\)。Fig.1 表示了干预前后的SEM \(K(\theta)\)干预后的随机化群体密度不必与总体的任何子群体密度相同

如果集合\(\bf{S}\)中任意变量的直接因变量\(H\)都在\(\bf{S}\)中,则称\(\bf{S}\)中的变量是因果充分的。如果SEM \(K\)是正确的,那么\(\{A,B,R\}\)是因果充分的,但\(\{B,R\}\)不是,因为\(A\)\(B\)\(R\)的直接因变量,但不在\(\{B,R\}\)中。如果观测到的变量集不是因果充分的,就说因果模型包含未观测到的公共因变量隐藏公共因变量,或者隐变量

假设(Assumptions)

以下假设通常将因果关系与概率密度建立联系。

因果马尔科夫假设(The causal Markov assumption)

因果马尔科夫假设:对于因果充分的变量集,给定直接因变量,所有变量都条件独立于它们的非后代变量。

因果马尔科夫假设过于简化,因为它只假设了变量间的所有关系都是因果关系,但变量间还有其它关联。首先,以公共后代为条件会导致条件依赖,例如,种群中性别和智力没有关系,但只有大多数聪明女性读研,而男性读研群体中智力范围很广,那么智力和性别就会在研究生样本中产生关联。其次,变量间的逻辑关系也会造成非因果关系,例如,年度GDP由十二个月的GDP求和得到,产生了逻辑关联,但没有因果关系。最后,没有办法处理瞬时对称关系,例如经典重力理论。

因果忠诚性假设

考虑Fig.2中的SEM \(O\)。假设\(I_K(B,R|A)\),其中SEM \(K\)如Fig.1 所示,不满足\(I_O(B,R|A)\)。然而,虽然不是所有的\(\bf{\beta}\)都满足\(I_O(B,R|A)\),但不代表没有\(\bf{\beta}\)满足\(I_O(\beta)(B,R|A)\)。例如,如果\(R\),\(A\)\(B\)的方差都为1,对于任意\(\beta\)满足\(cov_{O(\beta)}(A,B)\cdot cov_{O(\beta)}(A,R) = cov_{O(\beta)}(B,R)\),都有\(cov_{O(\beta)}(B,R|A)=0\),当\((b_{B,R}\cdot b_{A,R} + b_{A,B}) \cdot (b_{B,R}\cdot b_{A,B} + b_{A,R}) = b_{R,B}\)时就会出现这种情况。所以,如果群体满足\(I_p(B,R|A)\),就至少有两种解释:SEM \(K\),\(L\),或\(M\)的任何参数设定;或者SEM \(O\)中满足\((b_{B,R}\cdot b_{A,R} + b_{A,B}) \cdot (b_{B,R}\cdot b_{A,B} + b_{A,R}) = b_{R,B}\)的任何参数设定。有以下理由可以说明为什么尽管有特殊参数设定的\(O\)是可能的解释,\(K\),\(L\)\(M\)应该是更好的解释。

  1. \(K\),\(L\)\(M\)结构地解释了给定\(A\)\(B\)\(R\)的条件独立性。
  2. \(O\)的情况不太可能出现:从贝叶斯角度而言,如果不满足零条件协方差,对任何“平滑”的先验概率密度(高斯或指数密度函数),有向无环图中不存在这样的自由参数
  3. \(K\),\(L\)\(M\)\(O\)简单,有更少的自由参数。

因果忠诚性假设对于群体\(P\)中的因果充分集\(V\),群体密度\(p_P(V)\)\(V\)上的因果关系图上是忠诚的。

Fig.2 Alternative SEM models
Fig.2 Alternative SEM models

没看懂呃。。。

因果模型搜索算法的输出

接下来描述搜索算法可能的不同输出。

马尔科夫等价类

\(A\)\(B\)的路径是指直接从\(A\)\(B\),或者直接从\(B\)\(A\),或者\(A\)\(B\)之间不含\(X\to Y \leftarrow Z\)形式的子路径。SEM \(K\),\(L\)\(M\)是马尔科夫等价的,因为它们对应的图需要同样的条件独立关系。如果\(K\)是正确的,根据因果马尔科夫假设,任何A和R之间的路径都不可以消除(例如SEM \(N\))。SEM \(P\)也违反了因果马尔科夫假设。\(O\)不满足因果忠诚性假设。然而,这些假设都不能表明\(L\)或者\(M\)不满足群体条件独立。

因为\(K\),\(L\)\(M\)需要同样的条件独立关系,无法通过添加更多假设或背景知识或使用概率密度特征排除\(L\)\(M\)

在误差项为高斯分布的线性SEM中,没有其它特征可以区分开\(K\),\(L\)\(M\)。然而,对于其它分布,一些非条件独立约束可以用来区分\(K\),\(L\)\(M\)

分布等价

\(K\)\(L\)分布等价当且仅当对于\(K\)的任意参数\(\bf{\theta}\),存在L中的\(\bf{\theta}'\)使得密度相同,反之亦然。如果线性因果模型中所有的误差项都服从高斯分布,那么\(K\)\(L\)既是分布等价的也是马尔科夫等价的。此时,搜索算法应当返回所有的马尔科夫等价类,不管它们用了什么样的边缘密度。

相反,如果线性因果模型中的误差项至多一个是非高斯分布,SEM \(K\)\(L\)是马尔科夫等价的,但不是分布等价的。

为什么是至多一个而不是至少一个???

当马尔科夫等价不满足分布等价,只用条件独立关系进行因果推断仍然是正确的,但是不能提供理论上那么多信息。例如,假设线性、因果充分、非高斯的误差,条件独立检验可以最可靠地确定马尔科夫等价类,然而用样本密度的其它特征可以唯一确定一个因果图或者找到隐变量的信息。例如,线形图模型使用协方差矩阵子矩阵的秩约束,不考虑参数值。这些秩约束和条件独立测试可以识别具有潜在混杂因子的模型。

基于约束的搜索

DAG的数量随着顶点数量呈超指数增长,即使只有少量变量,也无法在给定因果马尔科夫和忠诚性假设的情况下判断每个DAG是否符合群体密度。PC算法,输入一个返回群体条件独立性和可选的有关边的方向的背景知识的判决器,返回一个称作模式的图对象,该模式基于判决器查询表示了一个马尔科夫等价类。如果判决器总是给出正确答案,并且满足因果马尔科夫和因果忠诚性假设,输出模式就包含了正确的SEM,尽管算法没有检查每一个DAG。最差情况下,它是变量数量的指数,但对于稀疏图,它可以处理成百上千个变量。

近年来,通用布尔可满足性求解器(SAT),一种约束优化技术,被用来在通用模型空间做因果发现。这种方法利用了条件独立性和以来约束,并且允许集成通用背景知识。它们可以发现存在双向环的因果结构和隐变量。因为本质上是组合优化问题,这样的方法不易随着变量数量增长而扩展。

分类、回归于因果推断之间的关系

以下简要总结从未干预群体中预测变量值问题从未干预样本中预测干预后变量值问题的一些重要区别。在未干预群体\(P\)中,最小化MSPE的预测器是条件期望的值。

  1. 无论正确的因果模型是什么,\(E(Y|\bf{O})\)\(p(\bf{O},Y)\)的函数。相反,干预期望值是\(p(\bf{O},Y)\)和因果图的函数。
  2. 要检验\(E_P(Y||p'(\bf{O}))\)是否是\(p(\bf{O},Y)\)和背景知识的函数,需要找出所有符合\(p(\bf{O},Y)\)和背景知识的因果模型,而不只是一个模型。
  3. 判断哪个因果模型符合\(p(\bf{O},Y)\)和背景知识需要对因果模型与群体密度之间的联系作额外假设(例如因果马尔科夫假设和因果忠诚性假设)。
  4. 如果不对因果模型引入一些简化假设,对于一些通用密度(高斯,多项),在没有很强的背景知识的情况下没有\(E_P(Y|\bf{O}'||p'(O))\)是群体密度的函数。
  5. 使用简单统计模型的理由与使用简单因果模型的理由从根本上不同。在给定的样本量下,即使因果关系不简单,简单统计模型的使用也是合理的。然而,最简单的因果模型也与\(p(\bf{O},Y)\)和背景知识相容,是关于世界上存在的简化机制的一个实质性假设。
  6. 对于许多密度函数族,总有不含隐变量的包含群体密度的统计模型。而因果模型可能需要引入隐变量,包含群体概率密度和干预后的概率密度。
  7. 给定群体密度、符合群体密度和背景知识的一组因果模型,计算干预的影响也是困难的:(a)可能有隐变量,即使只有一个因果模型符合\(p(\bf{O},Y)\)和背景知识;(b)可能有多个模型符合\(p(\bf{O},Y)\)和背景知识。
  8. 对于非实验数据,干预后密度与未干预群体密度不同。干预后的目标变量\(Y\)的值不能直接用样本度量。因此,无法通过比较样本值的方法估计\(E_P(Y|\bf{O}'||p'(O))\)

SEM可用作独立同分布数据和时序数据的因果发现

基于约束的因果发现方法依赖于条件独立检验,如果依赖的形式未知,这会很困难。该方法很通用,但是忠诚性是个很强的假设,需要大量的样本做条件独立性检验。另外,该方法的解通常不唯一,也不能确定两个变量间的因果方向。

我们可以用什么样的信息完全确定因果结构?一个基本问题是,给定两个变量,如何区分因果。直觉上讲,由因生成果的物理过程比相反的过程要更自然、更简单。我们该如何表示这个生成过程?哪种方式因果过程比反向过程更自然、更简单?

目前,一些基于SEM的因果发现方法被提出。一个SEM将效应\(Y\)表示为直接因变量\(X\)和一些不可观测误差的函数:\[Y=f(X,\varepsilon;\theta_1) \tag{1}\]其中\(\varepsilon\)是假设独立于\(X\)的误差项,函数\(f\in {\cal {F}}\)解释了\(Y\)如何从\(X\)中生成,\(\cal F\)是一个合适的约束方法类,\({\bf \theta}_1\)是函数\(f\)的参数。假设从\((X,\varepsilon)\)\((X,Y)\)的转换是可逆的,因此SEM \(N\)可以从观测变量\(X\)\(Y\)中唯一地构造。

为简化说明,假设\(X\)\(Y\)都是一维变量。在没有数据生成过程的先验知识时,SEM应该足够灵活,可以近似真实数据生成过程,更重要的是要能表示出\(X\)\(Y\)之间的因果不对称性。在上述条件下,我们可以先拟合两个方向上的SEM,然后检验估计的误差项与假设的隐变量之间的独立性,有独立误差项的模型更可能是真实的。

某些形式的SEM可以产生唯一的因果方向,得到了实际应用。在线性非高斯无环模型(LiNGAM)中,\(f\)是线性的,误差项\(\varepsilon\)和因变量中至多一个是高斯分布的。非线性加性噪声模型假设\(f\)是非线性的,包含加性噪声\(\varepsilon\)。在后线性(post-nonlinear,PNL)因果模型中:\[ Y=f_2(f_1(X)+\varepsilon) \tag{2}\]其中\(f_1\)\(f_2\)都是非线性的,\(f_2\)是可逆的。后线性转换\(f_2\)表现了实践中常见的感知或测量的扭曲。PNL因果模型是非常泛化的形式,前两种都是它的特例,但在通常情况下是可识别的,除了5种特殊情况(参考文献)。接下来的章节我们讨论一些SEM的可识别性,如何用SEM区分因果,不同因果发现规则的关系。

另外一个问题是时序数据的因果发现。Granger使用了基于约束的因果发现方法,即添加时间约束:结果不能产生原因。SEM和上述时间约束一起也用来估计因果关系。与条件独立关系相比,SEM能发现更多的因果信息。我们可以从下采样数据中发现时间因果关系,并且即使有混杂因素的时间序列,我们也能识别出因果关系。

一些SEM和因果方向的识别

当讨论到两个变量间的因果关系,人们通常关注线性高斯分布的情况,或者离散情况。对于前一种情况,联合高斯分布用均值和方差完全确定,通过适当的尺度变换,两变量关于数据分布完全不对称。

在离散情况下,如果明确知道什么SEM类产生了因果关系,因果方向就很容易从数据分布中看出。然而,如果准确的因果过程函数是未知的,在离散情况下很难从观测数据中发现因果方向,特别是变量很少的情况。考虑因果过程首先生成连续数据、然后观测到离散数据的情况,因果过程的属性由于离散化而丢失,使因果发现变得困难。本文考虑连续情况。

没有约束的SEM无法识别因果方向

在SEM中,假设误差项独立于因变量。如果对于相反方向,不能用\(Y\)和独立于\(Y\)的误差项表示\(X\),我们就能确定正确的因果方向。但是,如果我们不对函数\(f\)添加约束,情况就不是这样了,因为给定任意两个具有连续支撑集的随机变量\(X\)\(Y\),都可以构造统计独立于\(X\)的变量\(\tilde{\varepsilon}\),使得\(Y\)\(X\)\(\tilde{\varepsilon}\)的函数,并且该函数可逆。对于假设的因果方向\(Y\to X\)也一样。即,如果不约束\(f\),SEM中的任何两个变量都是对称的。因此,为了使SEM能够决定因果方向,必须对\(f\)引入一些约束,使得误差项和因变量只在一个方向是条件独立的。接下来我们关注两变量的情况,结论也可以扩展到多变量的情况。

线性非高斯因果模型

两个变量间的线性因果模型记作\[Y=bX+\varepsilon\tag{3}\]其中,\(\varepsilon\bot\bot X\)。先用简单例子说明为什么两个变量的线性模型能识别因果方向。假设\(Y=X+\varepsilon\),其中\(\varepsilon\bot\bot X\)

Fig.3展示了变量\(X\)\(Y\)的1000个数据点(第1、3列),和回归残差(第2、4列)。三行对应于不同的设定:\(X\)\(E\)都是高斯分布(case 1)、均匀分布(case 2)和超高斯分布(case 3)。在后两种情况中,\(X\)\(E\)是非高斯分布的,可以看出在给定\(Y\)回归\(X\)(反因果方向)时,回归残差与因变量不再独立。换言之,在这两种情况下,残差只在正确因果方向上与因变量独立,引起了\(X\)\(Y\)间的因果不对称性。

Fig.3
Fig.3

严格地说,如果\(X\)\(\varepsilon\)中至多一个是高斯分布的,根据独立成分分析(ICA)理论,或者更基础的Darmois-Skitovich理论,因果方向是可识别的。这被称作线性非高斯无环模型。

在线性情况下,有可能进一步估计系统中隐藏的混杂因素的影响,如果有,可以用过完备独立成分分析法找出。另外,当真实的因果模型包含违反无环假设的环或者反馈时,在特定假设下我们仍能发现因果知识。

关于线性情况下非高斯的普遍性

根据中心极限定理,通常情况下,当组成成分的数量越来越多时,独立变量的和趋于高斯分布,给LiNGAM模型的非高斯假设提出挑战。我们认为,在线性情况下,非高斯分布是普遍的。

Cramer的分解理论说明,如果两个独立实数随机变量的和是高斯分布的,那么这两个变量都必须也是高斯分布的。归纳可知,如果有限个独立的实数变量的和是高斯分布的,所有的被加数都必须是高斯分布的。换言之,高斯分布不能分解为非高斯分布的和的形式。这很好地补充了中心极限定理:在适当条件下,独立变量的和会趋于高斯分布,但不会完全是高斯分布,除非所有变量都是高斯分布的。这个高斯分布的线性闭包性表明了高斯分布的稀有性,非高斯分布的普遍性。然而,越趋于高斯分布,因果方向越难分辨。因此,实际问题是线性情况下的误差项是否足够非高斯以区分因果方向?

为什么用随机变量的和来说明非高斯的普遍性?

非线性加性噪声模型

在实践中数据生成过程经常包含非线性转换,应该被考虑在函数类中。作为LiNGAM的直接扩展,非线性加性噪声模型表示为因变量的非线性函数加一个独立误差项:\[Y=f_{AN}(X)+\varepsilon \tag{4}\]It has been shown that the set of all p(X) for which the backward model also admits an independent error term is contained in a 3-dimensional affine space.请记住所有可能的\(p(X)\)的空间是无限维的,在通常情况下,如果数据是线性加性噪声模型生成的,那么因果方向是可识别的。该模型是PNL因果模型的特例,PNL因果模型的识别结果也可以用于此。

经过特定修改,加性噪声模型也可以用作离散变量的情况。加性噪声模型也可以对平衡状态下两个变量的循环因果关系建模。

后线性因果模型

如果假设SEM过于严格,无法近似真实的数据生成过程,那么因果发现的结果可能有误导性。因此,如果没有数据生成机制的专业知识,为了让模型更具可行性,假设的因果模型需要足够通用,才能近似数据生成过程。

PNL因果模型考虑到因变量的非线性影响、噪声影响和对观测变量可能的感知或度量扭曲,如公式\((2)\)所示。一个更严格的模型版本,假设\(f_1\)是可逆的,被用作股票收益的因果分析。PNL模型是SEM中最通用的形式,包括了线性模型和非线性加性噪声模型这些特例。乘性噪声模型,\(Y=X\cdot\varepsilon\),是另一个特例,可以被写作\(Y=exp(log X + log \varepsilon)\),其中 \(log\varepsilon\)是新的噪声项,\(f_1(X)=log(X)\)\(f_2(\cdot)=exp(\cdot)\)

因果方向的理论可识别性

因果方向的可识别性是基于SEM的因果发现中的一个重要问题。由于LiNGAM和线性加性噪声模型是PNL模型的特例,PNL因果模型的可识别性条件也包含前两种SEM的条件。

PNL因果模型的可识别性条件通过反证法得到。假设因果模型包含\(X\to Y\)\(Y\to X\),意味着很强的分布和函数条件。假设数据是根据PNL因果模型在非特定条件下生成的;理论上,反向不符合模型,可以确定因果方向。

假设数据\((X,Y)\)由遵循因果关系\(X\to Y\)和独立误差的PNL因果模型生成,即\[X=g_2(g_1(Y))+\varepsilon_Y)\tag{5}\]其中\(Y\)\(\varepsilon_Y\)是独立的,\(g_1\)不是常数,\(g_2\)可逆。

公式\((2)\)\((5)\)定义了从\((X,\varepsilon^T)\)\((Y,\varepsilon_Y)^T\)的转换;因此,\(p(X,\varepsilon_Y)\)可以依据\(p(X,\varepsilon)=p(X)p(\varepsilon)\)进行表示。基于独立变量的对数联合密度的线性可分性得到可识别性结论,即,对于一组联合概率密度二次可微的独立随机变量,它们的对数密度的海森矩阵是处处对角化的。由于假设\(Y\)\(\varepsilon_Y\)是独立的,\(log p(Y,\varepsilon_Y)\)服从这样的线性可分性。这表明\(log p(Y,\varepsilon_Y)\)关于\(Y\)\(\varepsilon Y\)的二阶偏导数是0。可以得到一个双线性微分方程。在特定条件下(例如,\(p(\varepsilon)\)\((-\infty,+\infty)\)上是正的),微分方程的解给出了所有在PNL因果模型中不可识别的因果方向的情形。参考文献中的Table 1给出了5种不可识别的情形。第一种就是广为人知的线性高斯分布的情形。粗略地讲,为了让这些情形中的某一个为真,必须谨慎调整数据分布和相关非线性函数。在通常情形下,根据PNL因果模型生成的数据是可识别的。

非线性确定性情形:信息几何因果推断

假设\(Y\)是由\(X\)通过非线性确定性可逆函数得到,即\(Y=h(X)\),能否区分因果方向?一种解决该问题的方法是利用\(p(X)\)\(h\)间的确定性独立关系(参考文献)。他们将\(p(X)\)\(log|h'(X)|\)视作\(x\)值的随机过程,并且表明了如果它们关于参考度量(例如,均匀分布)无关,那么对于反方向,\(p(Y)\)\(log|(h^{-1})'(Y)|\)是正相关的,展示出\(X\)\(Y\)之间的不对称性。基于此可以得到信息几何因果推断(IGCI)方法。

在这种情形下,因果方向的可识别性依赖于因果过程不含噪声的假设。另外,IGCI假设\(p(X)\)\(p(Y)\)\(log|h'(X)|\)的分布足够复杂到估算相关性和可靠地比较两个候选方向。

基于SEM的因果方向判定

LiNGAM可以计算相对高效地从观测数据中估计出。假设我么的目标是从观测随机向量\(\bf{X}=(X_1,\dots,X_n)^T\)中估计因果模型。我们可以以矩阵形式用矩阵\(\bf{B}\)表示这样的因果关系,即\(\bf{X=BX+E}\),其中\(\bf{B}\)可以排列为严格下三角矩阵,\(\bf{E}\)是独立误差项向量。该式可以被写作:\[\bf{E=(I-B)X}\tag{6}\]其中\(\bf{I}\)是单位矩阵。ICA-LiNGAM方法用两步估计矩阵\(\bf{B}\)。首先在数据上应用ICA:\[\bf Z=WX\tag{7}\]此时\(\bf{Z}\)包含独立成分。然后,通过公式\((6)\)\((7)\)对矩阵\(\bf{W}\)排列、缩放得到矩阵\(\bf{B}\)

随着变量数量\(n\)的增多,估计的线性转换\(W\)更可能收敛到局部最优、包含更多的随机误差,导致因果模型的估计误差。要估计的因果矩阵\(\bf{B}\)可以排列成严格下三角矩阵,是非常稀疏的,因此,为提高估计效率,可以强制\(\bf{W}\)的稀疏性,通过稀疏连接的ICA实现。另一种减少评估误差的方法是通过递归执行回归和独立性检验找出因果顺序,如DirectLiNGAM算法(参考文献)

然而,基于非线性SEM的因果发现的计算通常没有线性情况高效。一种常用的非线性SEM因果发现方法包括两个步骤。首先用两个方向上的模型拟合数据,然后执行误差项和假设因变量的独立性检验。如果有且只有一个方向满足独立条件,\(X\)\(Y\)的因果关系就可以确定。如果两个方向都不满足,则数据生成过程可能不服从假设的SEM,或者存在同时影响\(X\)\(Y\)的混杂变量。如果两个方向都满足,因果方向不能用SEM区分,额外信息可能有所帮助。我们第一步采用希尔伯特-施密特信息准则(HSIC)进行统计独立性检验。下面详细讨论如何估计第一步中的函数和误差项。

第二步才是统计独立性检验吧?

对于非线性加性噪声模型,\(f_{AN}\)通常用高斯过程(GP)回归(参考文献)估计。

PNL因果模型的估计有一些不确定性:误差项\(\varepsilon\)的符号,均值和尺度,相应地,\(f_{i1}\)的符号,均值和尺度都是任意的。然而应该注意到理论上,在因果发现背景下我们不需要关注这些不确定性,因为它们不影响误差项与因变量间的统计独立性。

众所周知,对于线性回归,即使误差分布被错误假设为高斯分布,系数的最大似然估计依然是统计一致的。然而,对于一般非线性模型则不然。如果误差项的分布被错误指定,估计的PNL因果模型可能不统计一致,即使解决了估计中的上述不确定性(参考文献)。因此,如果没有误差项的先验分布,就应该从数据中适应性地估计。(参考文献)提出用最小化涉及到的非线性函数(以多层感知机表示)的互信息估计PNL因果模型。(参考文献)通过扩展变形的高斯过程估计PNL因果模型,允许高斯混合(MoG)形式的误差分布。

不同模型估计原则间的关系

通常用最大似然估计法拟合SEM。从数据中估计的误差项分布的负似然等价于误差项的互信息(参考文献)。似然度越高,估计的误差项的独立性越低(根变量也算作误差项)。

另一方面,基于约束的因果发现方法利用变量间的条件独立关系得到因果结构。这些原则,包括估计误差间的相互独立性和因果马尔科夫条件,之间有哪些联系呢?下面回答这个问题,并且结论可以推广到多变量情况。

考虑通过优化不同的DAG的结构找出因果结构。假设我们根据给定候选的DAG结构最佳拟合了非线性函数\(f_i\)。首先考虑使非线性加性噪声模型\[X_i=f_{AN,i}(\bf{PA}_i)+\varepsilon_i\tag{8}\]拟合数据。已证明误差项间的互相独立性与已观测变量间的条件独立性(与\(\varepsilon_i\)\(\bf{PA}_i\)间的独立性一起)是等价的,当且仅当总体扰动熵最小化(参考文献)。更具体地,当使用给定假设DAG因果结构使模型拟合变量\(X_1,\dots X_n\)时,以下三个性质是等价的:

没看懂。。。

  1. 因果马尔科夫假设成立(每个变量与非后代变量关于父变量条件独立),另外,\(X_i\)的误差项也独立于\(X_i\)的父变量。
  2. 误差项\(N_i\)之间相互独立。
  3. 误差项的交叉项之和\(\sum_i H(\varepsilon_i)\)是最小化的,值为\(H(X_1,\dots,X_n)\)

现在考虑PNL因果模型。当使PNL因果模型\[X_i=f_{i2}(f_{i1}(\bf{PA}_i)+\varepsilon_i)\tag{9}\]拟合数据时,误差项和\(f_{i1}\)的尺度是任意的,因为\(f_{i2}\)也需要估计。因此,不像非线性加性噪声模型,在PNL因果模型中讨论误差项的总体熵是没有意义的。然而,上述条件(1)(2)的等价性依然成立。

给定超过两个变量,估计基于SEM的因果模型的一种方法是穷举搜索:对于所有可能的因果顺序,分别拟合所有假设的SEM,然后做独立性检验。然而,该过程的复杂度随变量数超指数增长,需要更智能的方法。

上述结论关注了误差项之间的相互独立性组合了误差项与父变量间独立性的因果马尔科夫条件之间的关系,提议了一个发现因果结构的两步的方法。首先用基于约束的方法找出马尔科夫等价类,然后用PNL因果模型确定因果方向,避免了高维情况下的穷举搜索。在非线性加性噪声模型中,(参考文献)讨论了超过两个变量的因果发现的混合方案。

时序数据中的因果发现

基于约束和基于SEM的因果发现方法都可以直接用于发现随机过程或时序涉及的随机变量的因果关系。另外,时间约束可以减小因果结构的搜索空间。(参考文献)提供了几种时序数据上因果的定义的概述,回顾了一些因果发现方法。下面我们主要考虑基于SEM的时序因果发现,更准确地说,我们假设因果关系是线性的,考虑三个问题,分别是:具有瞬时效应的线性Granger因果分析;系统化下采样数据的因果发现;有隐藏时序的因果发现。

线性Granger因果关系和其具有瞬时效应的扩展

对于线性情况下的Granger因果分析,使以下VAR模型拟合数据:\[\bf{ X_t=AX_{t-1}+\varepsilon_t}\tag{10}\]其中\(\bf X_t=(X_{1t},X_{2t},\dots,X_{nt})^T\)是观测数据向量,\(\bf{\varepsilon_t}=(\varepsilon_{1t},\dots,\varepsilon_{nt})^T\)是时间和时间独立的噪声过程,因果转移矩阵\(\bf A\)包含时间因果关系。

实践中发现,拟合VAR模型后,残差经常有时间依赖。为解释这种依赖,上述VAR模型被扩展到允许\(X_{it}\)间的时间因果关系。令\(\bf B_0\)包含\(\bf X_t\)之间的时间因果关系,方程\((10)\)变为 \[ \begin{aligned} & X_t=B_0X_t+AX_{t-1}+\varepsilon_t,\\ \Rightarrow & (I-B_0)X_t = AX_{t-1} + \varepsilon_t,\\ \Rightarrow & X_t=(I-B_0)^{-1}AX_{t-1}+(I-B_0)^{-1}\varepsilon_t \end{aligned} \tag{11}\] 为估计具有瞬时效应的Granger因果关系涉及到的参数,(参考文献)提出了两种估计方法。第一种方法首先用上述VAR模型估计误差,然后应用独立成分分析。另一种方法基于多通道盲反卷积,统计上更高效。

下采样数据的因果发现

假设原始高分辨率数据由公式\((10)\)生成,现在考虑以因子\(k\)下采样得到的低分辨率数据。(参考文献)直接根据从下采样数据中学习到的因果结构推断出正确因果频率下的因果结构,不对因果关系作任何特殊形式的假设,是完全无参的,但是需要MCMC搜索,带来严重的计算负担,也不能估计因果关系的强度。

或者可以假设正确频率下的因果模型是SEM,可能用下采样数据完全确定。考虑线性情况,然后找出正确因果频率下的因果转移矩阵\(A\)。传统地,如果只使用二阶信息,就会遇到参数识别问题,即,不同高频模型下采样后得到的低频模型可能是等价的。

系统化下采样的影响

假设每\(k\)个时间步采样一次低频数据,即\(\bf\tilde{X}=(\tilde{X}_1,\tilde{X}_2,\dots,\tilde{X}_t)\)\(\bf (X_1,X_{1+k},\dots,X_{1+(t-1)k})\)。这里我们假设第一个数据点是\(\bf X_1\),有 \[ \begin{aligned} \tilde{X}_{t+1} &= X_{1+tk} = AX_{1+tk -1}+\varepsilon_{1+tk}\\ &= A(AX_{1+tk-2}+\varepsilon_{1+tk-1})+\varepsilon_{1+tk}\\ &= \dots \\ &= A^k\tilde{X}_t+\underbrace{\sum_{l=0}^{k-1}A^l\varepsilon_{1+tk-l}}_{\triangleq\varepsilon_t} \end{aligned}\tag{12} \] 根据公式\((12)\),下采样数据\(\tilde{X}_t\)与误差项\(\bf \varepsilon{t}\)也服从向量自动回归模型(VAR),可以看出,当\(T\to\infty\)时,下采样数据得到的时间因果模型由\(\bf A^k\)表示。当\(k\to\infty\)时,\(\bf A^k\)趋于消失,下采样数据会产生瞬时依赖(已经假设了系统是稳定的,因此\(\bf A\)的所有特征值的模都小于1)。

低分辨率数据中的误导性Granger因果关系

假设\(A= \begin{bmatrix} 0.8 & 0.5 \\ 0 & -0.8 \end{bmatrix}\)。考虑\(k=2\)的情况,下采样数据对应的VAR模型是\[\bf \tilde{X}_{t}=A^2\tilde{X}_{t-1}+\varepsilon_t=\begin{bmatrix} 0.64 & 0 \\ 0 & 0.64 \end{bmatrix}\tilde{X}_{t-1}+\varepsilon_t.\]也就是说,低分辨率数据\((k=2)\)中从\(X_{2,t-1}\)\(X_{1t}\)的因果影响消失了。

正确因果频率下的因果关系可识别性

已证明如果分布\(p_{Ni}\)是非高斯的并且对于不同的\(i\)都是不同的,附加其它技术性假设,因果频率数据相关的转移矩阵\(\bf A\)是可以从下采样数据\(\bf\tilde{X}\)中识别的。结果也表明,尽管下采样数据有瞬时依赖,实际上不服从具有瞬时效应的线性Granger因果模型。

没看懂。。。

令MoG表示噪声项的分布,可以用EM算法和变分EM估计下采样数据中的\(A\)

同样没看懂。。。

有混杂变量的时序数据因果发现

实际上很难甚至不可能收集因果分析中所有的相关时序数据,我们用以下方法解决这个问题:假设多个变量值是由多变量随机过程\(\bf X_t\)中采样得到,该过程伴随着另一个随机过程\(\bf Z_t\),构成VAR过程:\[ \begin{bmatrix} X_t\\Z_t\end{bmatrix} = \begin{bmatrix}B & C\\D&E\end{bmatrix}\cdot\begin{bmatrix} X_{t-1}\\Z_{t-1}\end{bmatrix}+\varepsilon_t \tag{13}\]其中\(\bf Z_t\)没有观测到,可以看作时序中的混杂因素,\(\bf B\)\(\bf X_t\)的因果转移矩阵,\(\bf C\)包含了\(\bf Z_t\)\(\bf X_t\)的影响。理论问题是\(\bf B\)\(\bf C\)能否从唯一的观测过程\(\bf X_t\)中区分开。

实践中Granger因果分析可能出错

在实践中的Granger因果分析中,只对过去观测的\(\bf X_t\)作现在的线性回归,然后解释回归矩阵。虽然实践上是可行的,但可能得到错误的因果结论,因为如果我们得到更多信息,推断出的因果结构就与之前不符,举例说明如下:设\(\bf X_t\)是双变量的,\(\bf Z_t\)是多变量的,假设 \[\begin{bmatrix} B&C\\D&E \end{bmatrix}= \left( \begin{array}{ccc} 0.9&0&0.5\\0.1&0.1&0.8\\ \hline 0&0&0.9 \end{array} \right)\] 同时令\(\bf\varepsilon_t\)的协方差矩阵为单位矩阵。为了执行Granger因果分析,我们首先用VAR模型拟合唯一的观测过程\(\bf X_t\),即计算VAR的转移矩阵 \[ B_{pG}=\Bbb{E}(X_tX^T_{t-1})\Bbb{E}^{-1}(X_tX^T_{t})=\begin{pmatrix} 0.89&0.35\\0.08&0.65 \end{pmatrix} \] 然后将\(B_{pG}\)的系数解释为因果影响。尽管根据\(\bf X_t\)中正确的时间因果关系\(\bf B\)\(X_{2t}\)不会导致\(X_{1t}\),但是\(B_{pG}\)表明\(X_{2,t-1}\to X_{1t}\)有很强的因果效应,强度为0.35,甚至比\(X_{1,t-1}\to X_{2t}\)的强度0.1还要强。

B的可识别性和C的几乎可识别性

假设\(\bf \varepsilon_t\)中的所有成分都是非高斯分布的,并且隐藏过程\(\bf Z_t\)的维度不高于观测过程\(\bf X_t\)的维度。与一些更近一步的技术假设一起,能证明\(\bf B\)可以从\(\bf X_t\)中识别;furthermore, the set of columns of C with at least two nonzero entries is identifiable from up to scaling of those columns.

然后用MoG表示\(\bf\varepsilon_t\)中成分的分布,构造变种EM算法,只从\(\bf X_t\)中估计\(\bf B\)\(\bf C\)

晦涩难懂。。。。

结论和开放问题

本文回顾了因果发现与推理中的核心概念和基本方法。概念包括干预因果模型样本预测模型因果预测模型结构方程模型因果马尔科夫假设忠诚性假设。讨论了基于约束的因果结构搜索及其特性。论文的第二部分介绍了结构方程模型,使我们能从观测数据中完全确定因果结构。本文主要关注了双变量情况下的因果区分任务,按从最严格到最宽松的顺序列出了线性非高斯因果模型非线性加性噪声模型后线性因果模型。本文阐述了因果方向的可识别性:对于这三个模型,在一般情况下,反因果方向不满足误差项的独立性条件,使得因果可区分。本文也简要讨论了区分因果的过程,包括拟合结构方程模型和检验估计误差与假定因变量间的独立性。

在过去三十年,因果发现和推断领域有了启发性进展。然而,仍有许多基础问题有待回答:

  1. 哪些新模型适合于不同类型混合的数据(例如,试验数据和观察数据)?
  2. 哪些新模型适合于不同种类的背景知识和不同概率密度族?
  3. 对于多种多样的数据,哪些评分标准最适合评估因果模型?哪些先验分布族适合捕获不同类型的背景知识?
  4. 搜索算法如何改进才能适合不同类型的背景知识、搜索不同类型的因果模型、运行更快、处理更多变量和更大的样本量、在小样本时更可靠、输出更多信息?
  5. 对于已有和新颖的因果搜索算法,它们有哪些语法语义特性(例如,稳定性,一致性,最多信息性)?有哪些统计特性(点一致性,统一一致性,采样效率)?有哪些计算特性(计算复杂度)?
  6. 有哪些因果马尔科夫假设和忠诚性假设的可靠替换?有没有在更多领域和应用中可以不损失推断可靠性的更弱假设?有没有一些领域中可以得到更强因果推断的更强假设?这些假设被违背的可能性?如果违背这些假设得到错误推断的程度?
  7. 有一些特定假设,例如线性,可以提升因果推断的可靠性和算法速的速度与采样效率。一些领域中有哪些其他分布族或更强的假设,以及如何用来提升因果推断?
  8. 大量统计假设可否被松弛?例如,如果样本选择过程不是独立同分布的但可能被兴趣变量因果性地影响的会怎样?

另外,关于基于SEM的因果模型和因果不对称性也有一些开放性问题。

  1. 可以将结构方程模型视作一种表现给定原因时结果的条件分布。那么我们能直接从数据分布中发现一些因果方向的迹象吗?换言之,我们能否找出一种通用方法,根据数据分布的属性直接刻画因果不对称性?如果可以,我们就可以将因果马尔科夫条件、SEM噪声独立条件、非线性噪声情况下的独立转换条件放到同一框架下。为此,(参考文献)尝试利用因果充分的因果系统的外生性。但还不清楚这种属性能否带来因果发现方法的高效计算和广泛应用。
  2. 非线性结构方程模型通常是非传递性的,即,因果过程\(X_1\to X_2\)\(X_2\to X_3\)遵循一个特定的SEM,而\(X_1\to X_3\)不必遵循同样的模型。线性模型是传递性的。这会是基于SEM的因果发现模型的一个潜在问题:他可能不能发现间接因果关系。这也可能是一个优点,可能检测到因果关系中中间变量的存在,但如何这样做还不清楚。
  3. 本文讨论了两种不同类型的独立,包括因果马尔科夫条件和SEM中误差项与因变量间的统计独立性。另一方面,这种独立也可以用来理解和处理一些机器学习或数据分析问题。例如,当特征导致标签时,半监督学习场景中的无标签数据是无用的;也启发领域自适应刻画哪些信息需要迁移。机器学习算法包括“adaptive boosting”能否从因果的角度理解还在研究中。另外,还不清楚有监督学习的学习保障是否实际依赖于特征与标签之间的因果关系。
  4. 在很多领域中,包括神经科学和生物学,构造超过两个变量的基于SEM的模型的高效因果发现算法是大规模因果分析中重要的一步。为使因果发现高效计算,可能需要限制因果结构的复杂度,即限制每个变量直接原因的数量。即使如此,文献中仍缺少智能的优化过程,而不是穷举搜索。
  5. 在大规模真实世界中的因果分析中,通常有许多实践性问题需要考虑。例如,未观测的混杂因子通常使因果发现变得困难,可以将FCI算法(参考文献,一种允许混杂因子的基于约束的方法)与合适的基于SEM的因果发现方法相结合。由于表示概率分布\(p\)的无向图包含了一个表示\(p\)的模式的邻接性的超集,无向图搜索或模式搜索的输出可以作为PAG中基于约束的搜索的起点,而不是以一个完全无向图作为起点(目前FCI的做法)。但是最佳算法仍需探索。另外,在实践中,特别是金融、经济和神经科学中,因果模型可能是随时间变化的。有一些方法致力于检测变化或者以动态的方式直接对随时间变化的因果关系建模(参考文献)。他们通常关注线性情形,不能快速定位变化的因果关系。(参考文献)的工作扩展了基于约束的因果发现,能直接确定那些动态生成过程中的变量,并且发现因果关系框架。然而,它并不表明因果关系如何随时间改变。找到能高效(就统计和计算而言)检测和估计随时间变化的因果模型在实践中很重要。

软件包和源码

参考原文。