库流程图

实验

您是否针对目标受众明确地随机分配了处理?

依从性

实验中的每个人都接受了分配给他们的处理吗?例如,如果您对加入忠诚度计划的因果效应感兴趣,一个有用的实验可能是随机向一些客户发送电子邮件,提示他们加入该计划。这些目标客户中只有一部分会加入忠诚度计划,因此依从性是不完美的。在医学实验中,患者每周到诊所接受新药或安慰剂,对指定组的依从性可能是完美的。

处理分配

如果处理不是实验的结果(即受控的),那么人们接受处理会有多种原因。假设您对每周锻炼分钟数(处理变量)对体脂百分比(结果)的因果效应感兴趣。有些人锻炼的分钟数比其他人多。这方面的原因(控制变量)可能包括更灵活的工作时间表或更注重健康。其中一些控制变量可能是混杂因素(即它们也直接影响结果)。在这个例子中,更注重健康可能是一个混杂因素(它影响营养,进而影响体脂),而拥有更灵活的工作时间表可能不是。这个泡泡中提出的问题是,数据中是否测量了所有混杂控制变量。

可以设置 W

如果您进行实验,则无需担心混杂问题。控制变量集中包含的任何特征都将有助于提高小样本估计的效率,但对于识别因果效应而言并非必需。

注意

当所有混杂因素都可测量时,偏差就会消除。有关该假设何时成立的指导,请参阅正交/双重机器学习部分。

将 Z 设置为预期处理

在依从性不完美的情况下,分配的处理类别的指示符不等同于实际接受处理的指示符。如果您对处理的因果效应感兴趣,应该将分配用作处理的工具变量,而不是简单地将分配视为处理本身。

处理响应性

许多估计器仅在给定一小组影响用户对处理响应大小的特定特征 X 时表现良好。如果您尚不知道哪些少量特征可能合理地影响用户响应,请使用我们处理大型特征集并进行惩罚以发现与处理效应异质性最相关的特征的稀疏估计器之一。

工具变量

一些估计器通过仅考虑在给定其他数据特征下条件随机的处理强度变化子集来识别处理的因果效应。这种变化的子集是由一个工具变量驱动的,工具变量通常是某种随机化(即早期的实验或抽签)。有关选择良好工具变量的更多信息,请参阅工具变量回归部分。

线性处理效应

一些估计器假设结果是处理的线性函数。如果处理与结果之间的关系结构已知且可加分离(例如,对于连续处理,线性函数可以包括处理项和处理平方项),这些估计器也可以估计非线性关系。这些线性函数还可以包括处理之间指定的交互作用。然而,这些估计器无法估计处理与结果之间完全灵活的非参数关系(例如,这种关系不能用森林模型来建模)。

线性异质性

CATE 函数确定用户对处理的响应大小如何随用户特征变化。一些估计器假设效应大小是用户特征的线性函数。

置信区间/模型选择

MetaLearner 和 DRLearner 估计器在所有阶段都允许选择任何 ML 估计模型,并允许通过交叉验证进行模型选择。这增强了灵活性,但由于样本数据用于在模型之间进行选择,因此无法计算诚实的解析置信区间。此外,大多数 ML 估计方法出于正则化目的引入偏差,以最优地平衡偏差和方差。因此,基于此类有偏估计的置信区间将无效。对于这些模型,仍然可以构建自举置信区间,但这个过程很慢,在小样本中可能不准确,而且这些区间只捕捉模型的方差,而不捕捉偏差。