邮箱: ql301@cam.ac.uk

[source]: Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link-

目录

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

在回归分析中,我们经常会引入「控制变量」来更好的评估自变量和因变量之间的因果关系。在这篇文章中,我们认为控制变量本身是不具有因果解释的。因此,我们建议在实证研究论文的结果部分「不要讨论其边际效应」。

1. 引言

多元回归分析 (multivariate regression) 是战略管理和经济学实证研究中的重要工具。这种方法通过引入控制变量来缓解混杂变量对因果效应估计的干扰。尽管控制变量在因果推断中处在一个很重要的地位,但在实证研究中,学者经常夸大其作用。

在本文中,我们认为:虽然控制变量对于因果关系的识别至关重要,但其本身通常不具有结构性解释。即使是有效的控制变量,也常常会与其他未观察到 (或不能观测到) 的因素(unobserved factors)关联控制变量,从因果推断的角度来看,这使得它们的边际效应无法解释 (Westreich 和 Greenland,2013; Keele等,2020)。因此,研究人员应考虑在解释其分析结果时完全忽略它们。

然而,在研究中,从控制变量中得出实质性结论的现象很普遍,例如,「控制变量的影响符合预期」 、「在结果中,我们的控制变量的结果值得注意」 等表述。具体来看,我们对近五年来在 Strategic Management Journal 上使用参数回归模型的论文进行了分析,发现有近 47% 的文章明确讨论了控制变量的估计效果。

此外,审稿人也经常会以「尽管这些控制变量并不是分析的主要重点,但他们仍然可以提供有价值的信息」为依据,要求论文作者提供控制变量系数的经济解释的情况。

2. 控制变量的结构性解释

调节变量和中介变量模型举例_中介变量和调节变量_控制变量

Durand 和 Vaara (2009) 在战略管理的文献中,首次引入因果图进行实证研究的逻辑梳理,并且高度评价其作用。考虑到回归中解释变量与控制变量间关系的复杂性,接下来,我们将使用因果图进行描述分析 (Pearl,2000; Hünermund,Bareinboim 2019)。

调节变量和中介变量模型举例_中介变量和调节变量_控制变量

图 a 给出了一个简单的有关处理变量 (treatment variable) 和结果变量 (outcome variable) 的经济模型,并且两个变量之间的关系被箭头连接,用来表明两个因素之间的因果关系。此外, 和 是两个可能会影响处理变量和结果变量的混杂因素,是相互关联的 (correlated),并通过图中的虚线双向弧线来表示。同时, 和 这种相互关联的关系,也给处理变量和结果变量之间的关系提供了一个活动途径 (Pearl,2000)。因此, 和 不仅通过真正的因果路径 连接,而且还通过第二条路径 ( 对 的因果关系)、 ( 对 的因果关系)、以及 ( 和 有相互关联的作用) 来连接,这会产生虚假的非因果关系。

在回归分析中,控制变量正好可以阻止此类活动 (backdoor) 的路径。故根据图 a,研究人员可以选择控制 或者 (两者都可以被用来确定因果关系)以获得 对 的无污染影响。

尽管如此,在控制 的情况下,其边际效应本身将不对应于 对 的任何因果效应。这主要是因为 与 相关, 将部分吸收 对 的因果影响 (Cinelli and Hazlett,2020)。

调节变量和中介变量模型举例_控制变量_中介变量和调节变量

图 b 描绘了一个包含几组控制变量的更为复杂的示例,并且每组都足以确定 对 的因果关系 (Textor 和 Liśkiewicz,2012)。在这种情况下:一种可能性是仅控制 ,从而阻止所有通过后门进入 的路径;第二种,控制 的直接影响因素 (、 和 ),这也将阻止所有后门路径;第三种选择是控制整个混杂因素 (、、、 和 ),这将是最耗费数据的策略,并且由于自由度较低,将会导致估算值不精确。这个例子也说明了用于识别因果关系 的控制变量组个数 (在此为 ),通常小于一个模型中混杂变量的总数。同时,如果 的所有直接影响因素 (此处为 、 和 )在回归中都考虑到,则控制变量的估计可以得到一个结构性解释。但这又不太可能实现,因为在许多实际环境中,影响 的因素可能会很多。

3. 对实证研究分析的启示

对有偏差 (biased) 的控制变量系数的边际效应解释是存在问题的,研究人员可能会发现错误的结论,除非可以确定在回归分析中考虑了结果变量的所有相关影响因素 (all-causes regression),否则不建议在实证研究中讨论控制变量的系数。同时,我们也建议仅将控制变量视为识别因果关系的干扰项,并不要在报告结果中展示 (Liang 和 Zeger,1995)。

我们对控制变量系数解释方式的建议也适用于非参数匹配估计 (Heckman 等,1998) 和现代机器学习,特别是高维设置 (Belloni 等控制变量,2014)。

简而言之,我们不需要过多的担心「控制变量的系数变化并没有预期的迹象」。因为在实际操作中控制变量的估计总是可能会产生偏差。相反,研究人员应该更加专注于解释主要变量的边际效应。相比之下,控制变量几乎没有实质性意义,我们可以放心地省略或只在附录中讨论。这样不仅会有效阻止研究人员从控制变量中得出错误的因果结论,而且还简化实证研究论文的讨论部分,并节省宝贵的资源用来讨论主要变量的经济效果。

参考文献

中介变量和调节变量_控制变量_调节变量和中介变量模型举例

New! Stata 搜索神器:lianxh 和 songbl

搜: 推文、数据分享、期刊论文、重现代码 ……

安装:

. ssc install lianxh

. ssc install songbl

使用:

. lianxh DID 倍分法

. songbl all

中介变量和调节变量_控制变量_调节变量和中介变量模型举例

关于我们

控制变量_调节变量和中介变量模型举例_中介变量和调节变量

限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: thumbxmw