正交工具变量

它是什么？

正交工具变量是一套方法，用于在存在未观测混杂因素的情况下，借助有效的工具变量，使用任意机器学习方法估计异质处理效应。我们开发了一种估计异质效应的统计学习方法，将问题简化为最小化一个适当的损失函数，该函数取决于一组辅助模型（每个辅助模型对应一个独立的预测任务）。这种简化使得可以使用所有最新的机器学习模型（例如，随机森林、梯度提升、神经网络）。我们证明，估计的效应模型对辅助模型的估计误差具有鲁棒性，通过证明该损失函数满足 Neyman 正交性准则。我们的方法可以用于估计真实效应模型在更简单假设空间上的投影。当这些空间是参数化的，则参数估计是渐近正态的，从而可以构建置信区间。有关这些方法的更详细概述，请参见例如 [Syrgkanis2019]。

何时应该使用它？

假设您有观测数据（或来自 A/B 测试的实验数据），其中选择了某些处理/干预/行动 \(T\) 并观测到某些结果 \(Y\)。然而，数据集中并未记录所有可能影响 \(T\) 的选择，同时又可能直接影响结果 \(Y\) 的变量 \(W\)（即控制变量或混杂因素）。与此同时，如果您可以观测到一个变量 \(Z\)，该变量将直接影响处理，并且对结果的间接影响仅通过处理进行，则可以使用上述类在高维数据集上学习异质处理效应。换句话说，我们学习处理对结果的影响，作为一组可观测特征 \(X\) 的函数。

特别是，这些方法在具有意图处理结构的 A/B 测试中特别有用，实验者随机分配用户是否接收采取某项行动的推荐，而我们感兴趣的是下游行动的影响。

例如

from econml.iv.dr import LinearIntentToTreatDRIV
est = LinearIntentToTreatDRIV()
est.fit(y, T, Z=Z, X=X, W=X)
est.effect(X)

类层次结构

在本库中，我们实现了上一节中提到的几种方法的变体。实现的 CATE 估计器的层次结构如下。

使用示例

更多示例请查看以下 Jupyter Notebook：OrthoIV 和 DRIV 示例 Jupyter Notebook。

正交工具变量

它是什么？

相关的估计器类有哪些？

何时应该使用它？

类层次结构

使用示例