南风金融网 - 中原最权威行情财经门户

热门关键词:  xxx  www.ymwears.cn  缪学刚    
热门: 对付勒索软件的利器:二级 还在为云存储掏冤枉钱?那 【MLinEcon文献推送1】文本 帮助你预防灾难的10款免费 利用Intel傲腾存储制定更智 【MLinEcon文献推送3】新闻

【MLinEcon文献推送8】基于随机森林分析因果推断中的异质性

来源:南风金融网 作者:南风金融网 人气: 发布时间:2020-01-14 16:52:56

原文信息



Wager S, Athey S. Estimation and inference of heterogeneous treatment effects using random forests[J]. Journal of the American Statistical Association, 2018, 113(523): 1228-1242.

推文作者|王瑶佩(上海财经大学公共经济与管理学院博士研究生)




一、导言



在许多应用中,我们希望使用数据来推断处理的因果效应:例如药物对健康结果的影响的医学研究,广告或营销对消费者购买的影响的研究,政府计划或公共政策效果的评估,以及“A/B测试”(大规模随机实验),技术公司常用来选择搜索结果排名或提出建议的算法。历史上,大多数数据集太小,除了将样本分成几个亚组之外,无法有意义地探索治疗效果的异质性。然而,最近出现了大量的经验设置,为个人定制估计值提供了可能。在本文中,我们试图通过开发一种强大的非参数方法来解决这一挑战,该方法用于非均匀治疗效果的估计,从而为真正的潜在治疗效果产生有效的渐近置信区间。与传统非参数方法,比如临近匹配、基于kernel的方法等相比,该方法具有一个优势即该方法没有『维数诅咒』的问题,而传统方法当变量的维数增加时效果会大打折扣。


除了方法上的创新,本文还有一个突破性进展:在回归森林的背景下,进行了该方法估计值的一致性和渐近的理论分析。在“城实树”的假设下,该方法可以进行无偏估计。据作者所知,本文是机器学习邻域第一个打开机器学习内部“黑箱”的人,给予机器学习计算结果严谨的经济学涵义,笔者认为这也是未来机器学习与经济学交叉的发展方向。本文的作者Susan Athey自2016年提出因果树估计处理效应的异质性,到2018的这篇文章运用因果森林并推理其估计的无偏性,是这个领域研究的开创者。




二、方法



决策树是机器学习中常用的算法,该算法使用了一种层级的结构:树,来帮助预测。一个简单的决策树如下图所示:




其中中间的层次成为节点,而最终的节点我们一般成为「叶」。


以分类问题为例,决策树通常使用递归的方法一层一层的将数据分解为不同的子样本,比如在上图的树中,每个节点都代表一个子样本,为了继续让树增长,需要一个指标度量下一步如何分组才能使得两个分类更能被区分开。比如,C4.5算法使用熵增作为标准,而CART算法使用基尼系数作为标准。CART算法不仅仅可以做分类,还可以做回归,其最终的结果是一个二叉树。由于这些特性,本文使用了CART算法。


在决策树的基础之上,还可以进一步做随机森林(Random forest),即首先使用Bootstrap的想法有放回的在数据中抽样,同时抽取特征(自变量X)的一个子集,进行决策树的预测。以上步骤可以不断重复,形成很多很多决策树,最终的决策结果由所有这些决策树的投票产生。在实践中,随机森林的分类效果通常非常理想。


因果树就是在树的叶子结点计算处理效应的树,因果树加上随机森林就是因果森林。回到因果推断,我们希望得到的因果效应,或者处理效应通常为:

其中Y为结果变量,W为分组或者处理变量,X为协变量。本文也需要外生性假设(unconfoundedness假设):


不确定背后的动机是,在连续性假设下,它有效地暗示我们可以将x空间中的邻近观测视为来自随机实验;因此,最近邻匹配和其他局部方法通常与τ(x)一致。在以上两个条件下,因果树的思想是首先使用决策树进行分组,进而对于每一个叶子内部,将处理组平均减去对照组平均,就得到了处理效应:


最后,给定生成单个因果树的过程,因果森林生成B个这样的树的集合,每个树输出一个估计值。然后,森林通过平均它们来聚合它们的预测?。?森林比单株树的优势在于,并不总是清楚什么是“最佳”因果树。在这种情况下,如Breiman[2001a]所示,通常最好生成许多不同外观的树并平均它们的预测,而不是寻找一棵高度优化的树。在实践中,这种聚合方案有助于减少方差并平滑尖锐的决策边界,提高泛化能力。


为了得到推断的结果,作者提出了『honest tree』:对于每一个样本i,其结果变量Y只能要么用来计算处理效应,要么用来划分决策树,而不能同时使用。为此,作者提出了两个算法:第一个被称为双样本树,即将样本平均分成两等分,一份(可以使用Y的信息)用于训练树,另一份的Y用于计算处理效应:


注意虽然我们每次训练树都进行了样本的划分,然而当我们使用随机森林时,由于每次划分都是随机的,因而可以完全使用所有样本信息。


第二个算法称为倾向树,即将W作为被预测的对象,使用X对W进行预测得到分类树,进而在每个叶子中计算处理效应:


最终,作者证明这些步骤得到的处理效应是渐进正态的,可以使用Jackknife构造置信区间。推导最终给出的是定理11:


我们注意到,要达到无偏一致且渐近正态的估计,我们依然需要和计量经济学一样严格的规定,样本独立同分布,要观察异质性的特征是外生的。

最后在每个叶子节点计算该子类的处理效应:




三、模拟



本文为了检验因果森林的估计效果,在模拟阶段使用的是模拟数据。该模拟选择的参照基准是K近邻(K-NN)匹配下的处理效应估计加上前文提过的第二个“诚实树”——倾向树。本文共进行了三次模拟:第一次,控制模拟数据使真实的处理效应为0,并测试了我们的方法抵抗相互作用而产生的偏差的能力;第二次,我们评估了因果森林适应处理效应异质性的能力,样本量=5000,子样本量=2500,递归次数=2000;第三次,大样本下的稳健性,其他与第二次相同,样本量扩大至10000,子样本量=2000,递归次数=10000.

表1.第二次实验结果

表2.第三次实验结果


对比表1和表二可以看出CF(因果树)方法的结果普遍优于K近邻算法,但在大样本时有收敛障碍。同时观察下图可以感觉到CF在捕捉异质性的大体方向是对的,但在边界的估计上存在问题,K近邻算法基本捕捉不到异质性。




四、程序包



本文的作者在开源平台Github(https://github.com/susanathey/causalTree)上提供了该程序的R语言包(CuasalTree),还有说明文档,可以直接使用。


排? ? 版 | 石庆宇

审?? ?核 |?郭? ?峰

责任编辑:南风金融网

最火资讯

首页 | 财经资讯 | 金融理财 | 价格行情

Copyright © 2012-2015 南风金融网门户站 版权所有 Power by DedeCms 豫ICP备12016580号  技术支持:南风金融网

电脑版 | 移动版