本演示通过模拟数据帮助您直观理解双重机器学习(Double Machine Learning)如何估计职业培训对收入的因果效应。
下表显示了20名求职者的背景特征、培训参与情况和月收入。请观察数据并回答:参与培训的人收入是否普遍更高?这是否意味着培训一定有效?
编号 | 姓名 | 年龄 | 教育年限 | 工作经验 | 参加培训 | 月收入(元) |
---|
点击"计算简单平均差异"按钮查看参训组和未参训组的平均收入差异。
在这一步,我们使用背景变量(年龄、教育年限、工作经验)预测每个人的"预期收入",然后计算"收入残差"(实际收入 - 预期收入)。
预期月收入 = -4514 + 71 × 年龄 + 714 × 教育年限 + 422 × 工作经验
收入残差 = 实际收入 - 预期收入。正残差表示一个人赚的比预期多,负残差表示赚的比预期少。
尝试调整模型参数,观察残差如何变化。一个好的模型应该使残差尽可能小且随机分布。
在这一步,我们使用背景变量预测每个人参加培训的概率,然后计算"参训残差"(实际参训状态 - 预测参训概率)。
参训概率 = Logistic(-6.21 - 0.02 × 年龄 + 0.41 × 教育年限 - 0.03 × 工作经验)
参训残差 = 实际参训状态(1/0) - 预测参训概率。正残差表示一个人比预期更可能参训,负残差表示比预期更不可能参训。
尝试调整模型参数,观察预测如何变化。好的模型应能根据背景特征较准确地预测参训可能性。
在这一步,我们分析"收入残差"和"参训残差"之间的关系。如果两者存在正相关,这可能表明参加培训对收入有正向因果效应。
编号 | 姓名 | 收入残差 | 参训残差 |
---|
点击按钮计算残差之间的相关系数。
横轴表示参训残差,纵轴表示收入残差。观察点的分布和趋势线。如果点从左下到右上分布,表示存在正相关:比预期更可能参训的人往往比预期收入更高。
收入残差 = 2,450 × 参训残差 + 140
解释: 斜率 2,450 表示培训的因果效应,即控制了背景特征后,参加培训平均能使月收入增加约 2,450 元。
在这一步,我们通过残差回归估计培训的因果效应,并与简单平均差异进行比较,理解为什么双重机器学习能提供更可靠的因果估计。
简单平均差异: 3,778元
双重机器学习估计: 2,450元
两者差异: 1,328元
收入残差 = 2,450 × 参训残差 + 140
简单平均差异高估了培训效应,因为它包含了背景特征差异的影响。参加培训的人群本来就具有更高的教育水平和其他有利特征,即使不参加培训也可能获得更高收入。
双重机器学习通过控制这些背景特征的影响,得到了更接近真实的因果效应估计。估计的培训效应为2,450元,表示在控制了所有观察到的背景特征后,参加培训平均能使月收入增加2,450元。
当参训组和未参训组在教育水平上差异增大时,简单平均差异显著增加,但双重机器学习估计保持相对稳定。
这表明双重机器学习能够有效控制背景特征差异带来的偏差,提供更可靠的因果效应估计。
当前选择的教育偏差: