深度工具变量

工具变量 (IV) 方法是一种即使存在混淆潜变量也能估计因果效应的方法。所做的假设比 DML 中所需的无混淆假设更弱。代价是当无混淆假设成立时,IV 估计器将比 DML 估计器效率低。所需的是一个工具变量向量 \(Z\),假设其因果影响处理 \(T\) 的分布,并且对结果 \(Y\) 的期望值没有直接的因果效应。该包提供了两种用于估计异质处理效应的 IV 方法:深度工具变量 [Hartford2017][Newey2003] 的两阶段基扩展方法。

模型设置如下:

\[Y = g(T, X, W) + \epsilon\]

其中 \(\E[\varepsilon|X,W,Z] = h(X,W)\),因此 \(Y\) 的期望值仅取决于 \((T,X,W)\)。这被称为 排除约束。我们假设条件分布 \(F(T|X,W,Z)\)\(Z\) 的变化而变化。这被称为 相关性条件。我们想要学习异质处理效应

\[\tau(\vec{t}_0, \vec{t}_1, \vec{x}) = \E[g(\vec{t}_1,\vec{x},W) - g(\vec{t}_0,\vec{x},W)]\]

其中期望是相对于 \(W|\vec{x}\) 的条件分布计算的。如果函数 \(g\) 确实是非参数的,那么在 \(T\)\(Z\)\(X\) 是离散的特殊情况下,对于 \(T\)\(Z\) 的每个值上的分布给出的概率矩阵需要在 \(\vec{x}\) 点上可逆,这样这个量才能对于任意的 \(\vec{t}_0\)\(\vec{t}_1\) 被识别出来。然而在实践中,我们会对函数 \(g\) 施加一些参数结构,这将使学习更容易。在深度 IV 中,这表现为假设 \(g\) 是具有给定架构的神经网络;在基于 sieve 的方法中,这相当于假设 \(g\) 是一组固定基函数的加权和。1

[Hartford2017] 中所解释的,深度 IV 模块通过最小化“简化形式”预测误差来学习异质因果效应

\[\hat{g}(T,X,W) \equiv \argmin_{g \in \mathcal{G}} \sum_i \left(y_i - \int g(T,x_i,w_i) dF(T|x_i,w_i,z_i)\right)^2\]

其中假设类 \(\mathcal{G}\) 是具有给定架构的神经网络。分布 \(F(T|x_i,w_i,z_i)\) 是未知的,因此为了使目标可行,必须将其替换为估计值 \(\hat{F}(T|x_i,w_i,z_i)\)。该估计通过将 \(F\) 建模为正态分布混合模型获得,其中混合模型的参数是“第一阶段”神经网络的输出,其输入是 \((x_i,w_i,z_i)\)。“第一阶段”神经网络的优化通过对(正态分布混合模型)似然函数进行随机梯度下降来完成,而用于处理效应的“第二阶段”模型的优化通过具有三种不同损失选项的随机梯度下降来完成:

  • 通过对数据小批量上的独立平均值来估计构成真实梯度计算的两个积分,这些平均值是积分的无偏估计。

  • 使用修改后的目标函数

    \[\sum_i \sum_d \left(y_i - g(t_d,x_i,w_i)\right)^2\]

    其中 \(t_d \sim \hat{F}(t|x_i,w_i,z_i)\) 是从估计的第一阶段神经网络中抽取的样本。这个修改后的目标函数不能保证产生对 \(g\) 的一致估计,但它的优点是只需要从分布中抽取一组样本,并且可以解释为通过方差惩罚来正则化损失。2

  • 使用一组样本来计算损失的梯度;这只有在样本数量趋于无穷大时才是梯度的无偏估计。

训练过程是将数据分为训练集和测试集,当测试集性能(在简化形式预测误差上)开始下降时停止训练。

输出是一个估计的函数 \(\hat{g}\)。为了获得对 \(\tau\) 的估计,我们在 \(\vec{t}_1\)\(\vec{t}_0\) 处对估计函数进行差分,将期望替换为对指定 \(\vec{x}\) 的所有观测值的经验平均。

脚注

1

关于非参数一致性的渐近论证要求神经网络架构(或相应的基函数集)允许以一定的速率增长,以便可以近似任意函数,但这并非我们在此关注的重点。

2
\[\begin{split}& \int \left(y_i - g(t,x_i,w_i)\right)^2 dt \\ =~& y_i - 2 y_i \int g(t,x_i,w_i)\,dt + \int g(t,x_i,w_i)^2\,dt \\ =~& y_i - 2 y_i \int g(t,x_i,w_i)\,dt + \left(\int g(t,x_i,w_i)\,dt\right)^2 + \int g(t,x_i,w_i)^2\,dt - \left(\int g(t,x_i,w_i)\,dt\right)^2 \\ =~& \left(y_i - \int g(t,x_i,w_i)\,dt\right)^2 + \left(\int g(t,x_i,w_i)^2\,dt - \left(\int g(t,x_i,w_i)\,dt\right)^2\right) \\ =~& \left(y_i - \int g(t,x_i,w_i)\,dt\right)^2 + \Var_t g(t,x_i,w_i)\end{split}\]