社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

Logit 和 Probit 模型的中介效应分析

连享会 • 5 月前 • 300 次点击  

👇 连享会 · 推文导航 | www.lianxh.cn

连享会课程 · 2024 暑期班

作者:贾寰宇 (厦门大学)
邮箱:jhy13261692355@163.com

编者按:本文主要整理自下文,特此致谢!
Source:Breen R, Karlson K B, Holm A. Total, direct, and indirect effects in logit and probit models[J]. Sociological Methods & Research, 2013, 42(2): 164-191. -Link- -PDF- -Google-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 问题背景

  • 2. 方法介绍

    • 2.1 理论部分

    • 2.2 一些拓展

    • 2.3 因果中介效应的识别条件

  • 3. Stata 命令实例

    • 3.1 实例分析

    • 3.2 Stata 命令介绍

  • 4. 结语

  • 5. 相关推文


1. 问题背景

在某些研究中,我们可能需要关注 Logit 和 Probit 模型中的中介效应分析。举例来说,当我们探究不同种族间收入差异的根源时,不均匀的教育资源分配可能是一个关键因素。为了评估中介效应,研究者通常会设定一组包含不同中介变量的模型,进而比较同一核心解释变量在这些模型中的回归系数。

在线性模型中,这些系数的差异衡量了预测变量 对结果变量 的影响通过中介变量而产生的关联程度。这是基于 路径分析 的原理。该原理将变量 对变量 的效应分解为两部分,一部分由变量 介导,另一部分未被 介导。以 为中介的部分称为间接效应,而未以 为中介的部分称为直接效应。

间接效应和直接效应的总和称为总效应,它等于当不包含中介变量时, 的效应。具体如下所示:

直接效应:间接效应:总效应:

然而,在 Logit 和 Probit 等非线性二元概率模型中,总效应无法像线性模型那样分解为直接效应和间接效应 (Fienberg,1977;Karlson 等,2012;MacKinnon 和 Dwyer,1993;Winship 和 Mare 1983)。这是因为在非线性二元概率模型中,误差方差可能在不同模型中有所不同,回归系数和误差方差不能分别识别。

相反,模型返回的系数估计值等于真实回归系数与一个缩放参数的比值,该缩放参数是误差标准差的函数 (Amemiya,1975;Winship 和 Mare,1983)。

2. 方法介绍

2.1 理论部分

为了解决这个问题,本文提出了一种在非线性概率模型 (如 Logit 或 Probit) 中评估中介效应的通用框架。该方法将线性模型的分解性质扩展到线性参数的非线性概率模型中,使研究人员能够将总效应分解为直接效应和间接效应的和。

Logit 模型中,直接比较模型 (1) 和模型 (2) 预测变量 前面的系数无法得到间接效应,因为估计出来的是真实系数估计值与残差标准差的函数的比值。

当把中介变量 从模型 (2) 中去除时,缩放因子会变化,且新的误差项也未必会服从 Logistic 分布或正态分布 (即便 正交),所以系数差异法不能直接用于估计间接效应。

这里 对应的是 Logit 模型估计出来的系数值,而 是系数真实值。

本文提出借助模型 (2) 和线性辅助回归模型 (3),而不使用模型 (1)。即把模型 (3) 带入模型 (2),得到 (7) 式:

此时,总效应、直接效应和间接效应可重新表示为:

  • 直接效应:
  • 间接效应:
  • 总效应:

由此,缩放因子已统一,可以计算直接效应与间接效应的相对大小。例如, 的比重可以计算如下:

2.2 一些拓展

存在多个中介变量时,该方法仍然适用。有如下几点说明:

  • 混杂因素:如果存在混杂因素 (即 的共同原因),把这些协变量加入全部方程中即可控制住其对中介效应分解的潜在影响。
  • 二元中介变量:对于二元中介变量,只要使用线性概率模型估计模型 (3),而不使用 Logit 或其他非线性概率模型,该中介效应分解方法仍然适用。
  • 平均边际效应:该方法还可用于报告 Average Partial Effects (分别计算每个样本上的边际效应,然后取平均)。与 Logit 模型的系数相比,APE 的一个优势在于它们是在概率尺度上测量的,因此更直观、更容易理解。
  • 组间中介效应比较:若对不同组别之间中介效应的差异感兴趣,可针对每个组别分别应用该分解方法,进而比较间接效应百分比的差异。需要注意的是,若模型中包含了 的交互项 (),则不同组别的缩放因子将存在差异,此时组间的间接效应不可直接比较。

因此,作者建议研究者在非线性概率模型中,谨慎推断处理组和对照组之间 (或者说预测变量的不同水平之间) 的中介效应异质性。

2.3 因果中介效应的识别条件

顺序可忽略性假设 (sequential ignorability assumption) 是进行因果中介分析时需要满足的一个关键假设。主要包括两个条件:

  • 在控制了协变量之后,预测变量 与不可观测的混杂因素 是独立的。
  • 在控制了预测变量 和协变量之后,中介变量 与不可观测的混杂因素 是独立的。

3. Stata 命令实例

3.1 实例分析

作者使用 1988 年的美国国家教育纵向调查 (NELS) 来演示该方法。NELS 是对 1988 年美国八年级学生的全国代表性调查,一直追踪到 2000 年。本文研究了父母社会经济地位 (SES) 对 2000 年四年制大学毕业 (COL) 的影响在多大程度上通过学生的学术能力 (ABIL) 和教育志向水平 (LEA) 进行中介。本文将 SESABILLEA 标准化为均值为 0,方差为 1。

本文预计能力和志向都会起到中介作用,并且还探讨了能力和志向哪个作用更大。由于怀疑分解可能受到潜在混淆变量的影响,本文还包括了性别 (MALE)、种族 (RACE) 和完整家庭 (INTACT) 作为协变量。最终样本包括 9,820 个个体。

本文使用 Stata 命令 khb 计算分解。本文将分析分为四个步骤。

  1. 本文使用 ABIL 作为中介变量对 SESCOL 的效应进行分解。
  2. 本文将 LEA 添加到分解中,并评估 ABIL LEA 哪个变量具有更大的间接效应。
  3. 本文将三个协变量 MALERACEINTACT 添加到分解中,以控制可能的混淆变量。
  4. 本文以 APE (平均偏效应) 的形式报告结果,以给分解提供更具实践含义的解释。由于结果可能对模型选择敏感,本文同时报告 Logit 模型和 Probit 模型的结果。

表 3 (原论文中) 报告了使用 ABIL 作为中介变量时 SESCOL 影响的分解结果。本文将总效应 1.348 (0.781) 以 Logit (Probit) 的形式分解为直接部分 0.914 (0.524) 和间接部分 0.434 (0.257)。使用 Karlson 等 (2012) 提出的检验统计量,可以看到所有效应都具有高度统计学显著性。

可以看到间接效应的大小约为直接效应的一半。如表 3 倒数第二行所示,在 Logit 模型中,间接效应占总效应 (本文将其称为中介百分比) 的 32.2%,在 Probit 模型中占 32.9%。对于 Logit 模型和 Probit 模型来说,这两者非常相似,这表明本文的分解对于 Logit 或 Probit 模型选择不敏感。

在最后一行,本文报告了简单比较系数所得到的中介百分比。在 Logit 模型中,这个百分比为 25.3%,在 Probit 模型中为 26.8%,表明简单比较会低估间接效应的真实大小。

在表 4 中,本文将 LEA 添加到分解中,发现所有效应都具有高度统计显著性。由于 Logit 和 Probit 返回几乎相同的结果,本文只关注前者的结果。可以看到与表 3 相比,中介比例从 32.2% 增加到 56.6%。

然而,SES 的效应更多地通过 LEA 而不是 ABIL 进行中介,LEA 占总效应的 37.5%,ABIL 占 19.1%。与表 3 中报告的 32.2% 相比,ABIL 的中介比例要小得多。在分解中包括 LEA 减少了 ABIL 对总效应的约 13 个百分点的贡献,这是因为 LEASESABILCOL 呈正相关。本文还注意到,简单比较模型间 Logit 系数会低估中介比例约 15 个百分点。

表 5 中添加了三个可能影响分解的协变量 MALERACE INTACT。这些协变量包含在用于分解的所有模型中,从而保持结果受其可能影响的恒定。本文发现,除间接效应的检验统计量外 (该效应仍然具有高度统计显著性),结果与第 4 表中报告的几乎完全相同。这表明表 4 中呈现的实质性结果不受协变量的影响。

表 6 中报告了表 5 中的 APE 结果,并再次关注 Logit 模型的结果。可以看到总效应为 0.228,这意味着对于 SES 的一个标准差变化,大学毕业的概率平均增加 22.8 个百分点。将此效应分解为直接效应为 9.7 个百分点,间接效应为 13.0 个百分点。

将间接效应分解为其两个组成部分,发现通过 ABIL 的间接效应为 3.9 个百分点,通过 LEA 的间接效应为 9.1 个百分点。由 LEA 所介导的间接效应更大。表 6 中所示的中介百分比与表 5 相等。然而,简单比较系数值则会得到明显差距。

3.2 Stata 命令介绍

我们可以使用 Kohler 等 (2011) 编写的 Stata 命令 khb 来实现上述分解。

3.2.1 安装 khb

* 安装
ssc install khb, replace

安装完成后,可以使用 help 命令查看该程序包中的两个命令的帮助文件:

help khb
help khbtab

khb 的语法结构如下:

khb model-type depvar key-vars || z-vars 
[if] [in] [weight] [ , options ]

其中,主体部分的设定说明如下:

  • model-type:用于指定模型类型,包括 regresslogitologitprobit oprobitcloglog 等;
  • depvar:被解释变量
  • key-vars:要分解总效应的解释变量
  • z-vars:中介变量
  • ||: 用于隔开中介变量与解释变量

选项

  • summary:显示每个待分解变量的分解情况;
  • disentangle:显示每个中介变量对应的间接效应大小;
  • concomitant(varlist):协变量;
  • vce(vcetype):设置标准误类型;
  • ape:显示平均偏效应 APE;
  • verbose:提供估计模型的详细信息;
  • zstandard:将 x 标准化;
  • rescale:将 z 标准化。

由于未能获取原文数据,此处使用 khb 命令提供的范例数据集 dlsy_khb.dta 进行演示。可以使用 net get 命令将 dlsy_khb.dta 文件下载到当前工作路径下。

. net get khb.pkg, replace     // 将 dlsy_khb.dta 下载到当前工作路径下
. net get st0236_2.pkg, relace // 作用同上,二选一即可
. use "dlsy_khb.dta", clear
. khb logit univ fses || abil fgroup , c(intact boy) d

Model-Type: logit Number of obs = 1896
Variables of Interest: fses Pseudo R2 = 0.20
Z-variable(s): abil fgroup
Concomitant: intact boy
-------------------------------------------------------
univ | Coeff S.E. z P>|z| [95% CI]
----------+--------------------------------------------
fses |
Reduced | 0.518 0.076 6.79 0.000 0.368 0.667
Full | 0.227 0.084 2.71 0.007 0.063 0.391
Diff | 0.291 0.148 1.97 0.049 0.001 0.581
-------------------------------------------------------

Components of Difference

Z-Variable | Coef Std_Err P_Diff P_Reduced
-----------+-------------------------------------------
fses |
abil | .1545696 .0282221 53.17 29.86
fgroup | .1361384 .0352813 46.83 26.30
-------------------------------------------------------

表中的系数含义,详见 3.1 实例分析 小节。可以看出,fsesuniv 的总效应是 0.5175857,直接效应是 0.2268777,间接效应是 0.2907079。其中,由变量 abil 介导的间接效应占总效应比 29.86%,由变量 fgroup 介导的中介效应占总效应比例为 26.30%。

4. 结语

在线性回归模型中,总效应可以分解为直接效应和间接效应的和。但是在 Logit 和 Probit 这类非线性概率模型中,由于模型系数与误差方差无法分离识别,总效应无法直接分解为直接效应和间接效应的和。

本文提供了在 Logit 和 Probit 模型中估计和解释总效应、直接效应和间接效应的方法。该方法弥补了非线性概率模型中基于“系数差异法”和“系数乘积法”的中介分析结果之间的差距。

该方法报告了在 Logit 或 Probit 模型系数尺度和概率尺度上测量的效应,并在顺序可忽略性假设下识别了因果中介效应。

与其他方法相比,该方法在计算上更简单,且总体表现始终相当与或优于 Imai、Keele 和 Tingley (2010) 以及 Imai、Keele 和 Yamamoto (2010) 提出的方法。

文章还指出,在非线性概率模型中识别异质中介效应时存在一个迄今未被认识的问题。在包含自变量和中介变量交互项的非线性概率模型中,由于系数只能确定到比例尺度上 (coefficients from these models are identified only up to scale),识别中介效应会受到限制。

文章最后应用了该方法对 1988 年美国教育纵向研究数据进行了中介效应估计的实证分析。

总的来说,这篇文章提出了一种新的分解方法,能够在 Logit 和 Probit 这类非线性概率模型中分解总效应,为社会学研究中的中介效应分析提供了新的工具。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh probit logit 中介, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:Probit-Logit
    • 丁雅文, 2021, Stata:面板混合选择模型-cmxtmixlogit, 连享会 No.748.
    • 万源星, 2020, xtpdyn:动态面板Probit模型及Stata实现, 连享会 No.44.
  • 专题:交乘项-调节-中介
    • 余坚, 2023, 中介效应:有序因果中介分析的半参数估计A-理论, 连享会 No.1177.
    • 余坚, 2023, 中介效应:有序因果中介分析的半参数估计B-实操, 连享会 No.1179.
  • 专题:IV-GMM
    • 关欣, 2022, Stata:基于IV的因果中介分析-ivmediate, 连享会 No.914.
  • 专题:论文重现
    • 吴奕玮, 2023, 论文复现:引入注意力的考虑集模型-alogit, 连享会 No.1316.
  • 专题:Stata命令
    • 吴小齐, 2023, Stata:如何理解非参数估计, 连享会 No.1287.
    • 吴思锐, 2020, Stata:二元Probit模型, 连享会 No.162.
    • 周依仿, 展一帆, 2021, medsem-中介效应:基于结构方程模型SEM的中介效应分析, 连享会 No.581.
    • 展一帆, 周依仿, 2021, Logit-Probit:非线性模型中交互项的边际效应解读, 连享会 No.616.
    • 崔颖, 2020, Stata:调节中介效应检验.md, 连享会 No.268.
    • 庄子安, 2021, feologit:固定效应有序Logit模型, 连享会 No.507.
    • 张雪娇, 2020, Stata:Logit 模型评介, 连享会 No.212.
    • 彭莘昱, 2021, reg2logit:用OLS估计Logit模型参数, 连享会 No.512.
  • 专题:回归分析
    • 文海铭, 2022, 中介效应分析:三段式中介效应模型真的适用于经济学研究吗?, 连享会 No.952.
  • 专题:内生性-因果推断
    • 曹昊煜, 2022, Stata:一般化的因果中介分析, 连享会 No.1046.
    • 曹琳君, 2021, Stata:因果中介分析大比拼-T323, 连享会 No.584.
    • 曹琳君, 2021, med4way:中介效应和交互效应分析, 连享会 No.580.
    • 朱菲菲, 2023, Stata:mscologit-一般化有序Logit模型, 连享会 No.1291.
    • 李坤, 2022, Stata:中介效应分析新命令-sgmediation2, 连享会 No.981.
    • 杨柳, 2020, Stata:嵌套 Logit 模型 (Nested Logit), 连享会 No.260.
    • 武珊珊, 2020, 详解 Logit/Probit 模型中的 completely determined 问题, 连享会 No.190.
    • 沙莎, 2020, Stata+R:一文读懂中介效应, 连享会 No.126.
    • 祁本章, 2021, Logit-Probit中的交乘项及边际效应图示, 连享会 No.575.
    • 肖志文, 2024, 如何理解 Logit,Probit 和非线性概率模型?, 连享会 No.1332.
    • 赵雨鑫, 2023, 调节变量与中介变量介绍, 连享会 No.1211.
  • 专题:专题课程
    • 连享会, 2024, 2024 政策优化和机制分析专题-连享会, 连享会 No.1395.
  • 专题:Stata入门
    • 连享会, 2020, Stata 200 问:常见问题都在这里了-UCLA FAQs, 连享会 No.467.
    • 连享会, 2020, Stata新命令:面板-LogitFE-ProbitFE, 连享会 No.341.
    • 连享会, 2020, Stata:何时使用线性概率模型而非Logit?, 连享会 No.206.
    • 连享会, 2020, 司继春:二元选择模型与计数数据, 连享会 No.148.
    • 连玉君, 杨柳, 2020, Stata: 边际效应分析, 连享会 No.64.
    • 连玉君, 杨柳, 2020, Stata:Logit模型一文读懂, 连享会 No.170.
  • 专题:面板数据
    • 郭盼亭, 2022, Stata:面板Logit的边际效应和处理效应估计-mfelogit, 连享会 No.1127.
    • 陈卓然, 2022, 全面解读Logit模型, 连享会 No.965.
    • 陈炜, 2023, Stata:非线性模型的中介效应检验-khb, 连享会 No.1200.
    • 黄彩虹, 2020, 二元选择模型:Probit 还是 Logit?, 连享会 No.235.
    • 黄欣怡, 2020, Stata:多元 Logit 模型详解 (mlogit), 连享会 No.443.
    • 黄熹, 2021, 秒懂小罗肥归:logit与mlogit详解, 连享会 No.573.

🍓 课程推荐:2024 政策优化和机制分析专题
主讲老师:杨海生 (中山大学)
课程时间:2024 年 8 月 8-10 日 (三天)
授课地点:西安 · 西北工业大学 (线下授课)

New! Stata 搜索神器:lianxh songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171494
 
300 次点击