基于机器学习的异质处理效应估计

机器学习的最大前景之一在于自动化处理多种应用领域的决策制定。在大多数数据驱动的个性化决策场景中,一个核心问题是异质处理效应的估计:即干预对关注结果的影响,是接受处理样本可观测特征的函数。例如,在个性化定价中就出现了这个问题,目标是根据消费者的特征来估计价格折扣对需求的影响。类似地,在临床试验中也出现了这个问题,目标是根据患者的特征来估计药物治疗对患者临床反应的影响。在许多此类情景下,我们拥有大量的观测数据,其中处理是根据某种未知策略选择的,并且进行 A/B 测试的能力有限。

EconML 包实现了经济计量学和机器学习交叉领域文献中的最新技术,这些技术通过基于机器学习的方法解决了异质处理效应估计问题。这些新颖的方法在对效应异质性进行建模时提供了极大的灵活性(通过随机森林、boosting、lasso 和神经网络等技术),同时利用因果推断和经济计量学技术来保留学习模型的因果解释,并且很多时候通过构建有效的置信区间来提供统计有效性。

它实现了近期学术著作中的技术,其中一些由微软研究院的 ALICE 项目内部开发,还有许多来自该领域的领先团队。示例包括双重机器学习(参见如 [Chernozhukov2016], [Chernozhukov2017], [Mackey2017], [Nie2017], [Chernozhukov2018], [Foster2019]),因果森林(参见如 [Wager2018], [Athey2019] [Oprescu2019]),深度工具变量(参见如 [Hartford2017]),非参数工具变量 [Newey2003],元学习器(参见如 [Kunzel2017])。该库将所有这些不同的技术整合在一个通用的 Python API 下。

动机示例

EconML 旨在衡量某些处理变量 T 对结果变量 Y 的因果效应,同时控制一组特征 X。用例包括

推荐 A/B 测试

解释非完全依从性实验

Recommendation A/B testing logo

问题:一家旅游网站想知道加入会员计划是否会使用户花更多时间访问该网站。

问题:他们不能直接查看现有数据,比较会员和非会员,因为选择成为会员的客户可能已经比其他用户更活跃。他们也不能直接进行 A/B 测试,因为他们无法强制用户注册会员。

解决方案:该公司之前进行了一项实验,测试新的、更快的注册流程的价值。EconML 的 DRIV 估计器利用这种鼓励用户成为会员的实验性“推力”作为工具变量,产生会员可能性的随机变异。DRIV 模型调整了并非所有获得更便捷注册流程的用户都成为会员这一事实,并返回会员资格的效应,而不是获得快速注册流程的效应。

Jupyter notebook 链接:推荐 A/B 测试

更多详情:Trip Advisor 案例研究

客户细分

估计激励的个体化反应

Customer Segmentation logo

问题:一家媒体订阅服务公司希望通过个性化定价方案提供有针对性的折扣。

问题:他们观察到客户的许多特征,但不确定哪些客户对较低价格的反应最强烈。

解决方案:EconML 的 DML 估计器利用现有数据中的价格变动以及丰富的用户特征,估计出随多个客户特征变化的异质价格敏感性。树解释器提供了一份现成的摘要,总结了能够解释对折扣反应差异最大的关键特征。

Jupyter notebook 链接:客户细分

多项投资归因

区分多种外展工作的效果

Multi-investment Attribution logo

问题:一家初创公司想知道招募新客户最有效的方法是什么:价格折扣、提供技术支持以便于采用,还是两者的组合。

问题:失去客户的风险使得进行涉及多种外展工作的实验成本过高。到目前为止,激励措施都是策略性地提供给客户的,例如大型企业更有可能获得技术支持。

解决方案:EconML 的双重稳健学习器模型联合估计多种离散处理的效应。该模型使用观测到的客户特征的灵活函数来滤除现有数据中的混淆相关性,并给出每种努力对收入的因果效应。

Jupyter notebook 链接:多项投资归因