双重机器学习交互式演示

本演示通过模拟数据帮助您直观理解双重机器学习(Double Machine Learning)如何估计职业培训对收入的因果效应。

数据探索
步骤一:收入预测
步骤二:参训预测
步骤三:残差分析
因果效应估计

数据探索

下表显示了20名求职者的背景特征、培训参与情况和月收入。请观察数据并回答:参与培训的人收入是否普遍更高?这是否意味着培训一定有效?

数据表

编号 姓名 年龄 教育年限 工作经验 参加培训 月收入(元)

数据可视化

参与培训
未参与培训

简单平均差异

点击"计算简单平均差异"按钮查看参训组和未参训组的平均收入差异。

步骤一:使用机器学习预测收入

在这一步,我们使用背景变量(年龄、教育年限、工作经验)预测每个人的"预期收入",然后计算"收入残差"(实际收入 - 预期收入)。

收入预测模型

71
714
422
-4514

预期月收入 = -4514 + 71 × 年龄 + 714 × 教育年限 + 422 × 工作经验

收入预测与残差

参与培训
未参与培训
预测收入

收入残差解释

收入残差 = 实际收入 - 预期收入。正残差表示一个人赚的比预期多,负残差表示赚的比预期少。

尝试调整模型参数,观察残差如何变化。一个好的模型应该使残差尽可能小且随机分布。

步骤二:使用机器学习预测培训参与

在这一步,我们使用背景变量预测每个人参加培训的概率,然后计算"参训残差"(实际参训状态 - 预测参训概率)。

参训概率预测模型

-0.02
0.41
-0.03
-6.21

参训概率 = Logistic(-6.21 - 0.02 × 年龄 + 0.41 × 教育年限 - 0.03 × 工作经验)

参训预测与残差

预测参训概率
实际参训 (1)
实际未参训 (0)

参训残差解释

参训残差 = 实际参训状态(1/0) - 预测参训概率。正残差表示一个人比预期更可能参训,负残差表示比预期更不可能参训。

尝试调整模型参数,观察预测如何变化。好的模型应能根据背景特征较准确地预测参训可能性。

步骤三:残差分析

在这一步,我们分析"收入残差"和"参训残差"之间的关系。如果两者存在正相关,这可能表明参加培训对收入有正向因果效应。

残差数据

编号 姓名 收入残差 参训残差

点击按钮计算残差之间的相关系数。

残差关系散点图

参与培训
未参与培训
因果效应估计: 2,450元

散点图解释

横轴表示参训残差,纵轴表示收入残差。观察点的分布和趋势线。如果点从左下到右上分布,表示存在正相关:比预期更可能参训的人往往比预期收入更高。

回归线方程

收入残差 = 2,450 × 参训残差 + 140

解释: 斜率 2,450 表示培训的因果效应,即控制了背景特征后,参加培训平均能使月收入增加约 2,450 元。

因果效应估计

在这一步,我们通过残差回归估计培训的因果效应,并与简单平均差异进行比较,理解为什么双重机器学习能提供更可靠的因果估计。

因果效应估计结果

估计结果比较

简单平均差异: 3,778元

双重机器学习估计: 2,450元

两者差异: 1,328元

回归方程

收入残差 = 2,450 × 参训残差 + 140

解释

简单平均差异高估了培训效应,因为它包含了背景特征差异的影响。参加培训的人群本来就具有更高的教育水平和其他有利特征,即使不参加培训也可能获得更高收入。

双重机器学习通过控制这些背景特征的影响,得到了更接近真实的因果效应估计。估计的培训效应为2,450元,表示在控制了所有观察到的背景特征后,参加培训平均能使月收入增加2,450元。

模拟:改变样本特征

模拟结果

当参训组和未参训组在教育水平上差异增大时,简单平均差异显著增加,但双重机器学习估计保持相对稳定。

这表明双重机器学习能够有效控制背景特征差异带来的偏差,提供更可靠的因果效应估计。

当前选择的教育偏差:

简单差异
DML估计