第 18 章。高级回归分析
更高类别: 【统计】【统计概览】(https://jb243.github.io/pages/1641)
1. 有效性
2. 面板数据
3. 工具变量
4. 随机对照实验
5. 准实验
6. 异质群体
1. 有效性
⑴ 内部效度
①定义:定性评价回归分析结果得到的各系数计算是否合理
② 威胁1.省略变量偏差
○ 定义: 如果存在满足以下两个条件的变量,则残差的期望值不为零
○ 条件1. 省略的变量与一个或多个现有变量相关
○ 条件2. 省略的变量必须是Y的决定因素
○ 残差期望值示例
![]()
○ 解决方案
○ 在回归分析中包括遗漏变量
○ 如果没有与遗漏变量相关的数据,则有以下三种方法:
○ 方法1.面板数据:删除不随时间变化的属性
○ 方法2.工具变量回归:通过工具变量只能提取本质信息
○ 方法3. 在随机对照实验下收集新信息
③ 威胁2.错误的函数形式偏差
○ 定义: 非线性关系中线性回归分析产生的偏差
○ 一种遗漏变量偏差
④ 威胁 3. 回归变量中的变量偏差或测量误差
○ 定义 : 具有测量误差的自变量 X̃i,可以与误差 vi 相关
○ 公式
![]()
○ 问题1.计量经济学铁律:斜率的OLS估计量往往低于真实值
![]()
○ 问题 2. OLS 估计器不具有一致性
○ 问题 3. 统计估计不准确
○ 解决方案
○ 方法1. 提高测量仪器的精度
○ 方法2.工具变量回归: 通过工具变量只能提取本质信息
○ 方法 3. 纠错: 如果存在错误模式,则可以进行纠正
○(注)如果因变量存在测量误差
○ 公式
![]()
○ 斜率的估计量不变
![]()
○ 满足简单线性回归模型的三个主要假设**
○ 假设 1. Xi 未提供有关 vi 的任何信息
![]()
○ 假设 2. Xi 和 Ỹi 是 i.i.d.
○ 因为 Yi 和 wi 是 i.i.d.并且相互独立,Ỹi 是 i.i.d。
○ 由于 Xi 与 Yj 或 wj 独立,且 i ≠ j,因此 Xi 和 Ỹi 是独立的
○ 因此,满足假设2
○ 假设 3. 存在四阶矩
○ 因为 ui 和 wi 具有有限的四阶矩且相互独立,所以 vi = ui + wi 具有有限的四阶矩
○ 因此,(Xi, vi) 具有非零有限四阶矩
○ 变量误差偏差之间存在三个差异
○ 差异 1. OLS 估计器具有一致性
○ 差异2. 统计估计准确
○ 差异 3. 增加了回归误差的方差 → 增加了 OLS 估计器的方差
![]()
⑤ 威胁4.样本选择偏差
○ 当数据选择过程中出现偏差时
○ 换句话说,偏差是通过从一部分推导出整个群体的特征而产生的
○ 示例 1. 因素 A 和因素 B 的招募率
○ 假设招募率随着 A 和 B 的增加而增加
○ A因素低的人不想申请
○ A系数低者,B系数高者适用
○ 因此,A因素的就业率回归曲线衡量A因素的影响低于实际影响
⑥ 威胁 5. 同时因果关系偏差
○ 从自变量到因变量之间存在偶然联系是很自然的
○ 如果因变量与自变量存在因果关系,则自变量的系数会出现偏差
○ 就好像反馈电路用复杂的公式来表达
○正反馈电路:增加系数的绝对值
○ 负反馈电路 : 减小系数的绝对值
○ 例子 : 出生率和死亡率之间存在相互因果关系。类似于正反馈电路
○ 解决方案
○ 方法1.工具变量回归:仅提取已从因果联系中剔除的本质信息
○ 方法2.随机对照实验:通过随机进行处理来消除因变量的因果关系
⑵ 外部效度
①定义:对回归分析得到的各自变量的系数是否适用于其他人群的定性评价
② 威胁1.非代表性样本:人群本身的差异
③ 威胁2.非代表性的计划或政策:制度差异
○ 即使总体相同,不同的系统也可能违反外部效度
○示例:教育环境差异、法律制度差异、物质环境差异等
④ 威胁3.一般均衡效应
○ 定义: 治疗改变整体环境,可以放大或抑制治疗的有效性
○ 类似于同时因果偏差» ○ 示例 : 油田的存在对收入的影响
○ 油田的存在 → 工人收入增加
○ 工人收入增加 → 新工人流入增加
○ 购房增加 → 因住房短缺导致房价上涨 → 收入减少
○ 汽车拥堵加剧 → 收入减少的因素
○ 由于收入增加,对餐厅质量的要求增加 → 外出就餐成本增加 → 收入减少的因素
⑤ 解决方案
○ 根据人口和环境调整回归关系结论的方法
○ 荟萃分析: 比较相似但不相同人群的结论
2.面板数据
⑴概述
①参考以下数据
![]()
② 平衡面板数据 : 所有实体在所有时间间隔内均配备
③不平衡面板数据:如果不是平衡面板数据
④(比较)重复截面数据
○ 面板数据是针对每个人跟踪的数据
○ 重复截面数据是随时间推移获得的数据
○ 即使是重复的横截面数据,前后数据中也可以包含同一个人,并且成本低廉
⑵ 回归模型前后
①公式
![]()
○ 该模型可以随着时间的推移删除不变的元素
○ Z 与截距不同,因为它根据 i 具有不同的值
② 一种固定效应回归模型
⑶固定效应回归模型
①主要假设
○ 假设 1. E(uit Xi1, ···, XiT, αi)</span> = 0: E(uit Xit, αi) = 0 是不够的 (∵ 所有的信息时间用于y和u的平均值)
○ 假设 2. (Xi1, ···, XiT, ui1, ···, uiT) 是 i.i.d.在联合分布下 : 换句话说,这并不意味着 cov(uit, uis) = 0 (假设 t ≠ s)
○ 假设 3. 存在四阶矩
![]()
○ 假设 4. 不存在完美的多重共线性 : Xit 必须依赖于 t
○ 在majore假设下,固定效应估计量满足一致性和渐近正态性
○ 即使n增加到无穷大,Y在时间上的平均值也不满足一致性和正态性(∵ n和T无关)
② 公式
![]()
○ 数据应理解为在 i 和 t 轴上表示的表格
○ 在T = 2的情况下,与回归模型前后的情况相同
○ 斜率标准差 = 聚类标准误差 = 异方差 & 自相关一致标准误差 (HAC)
○ 直到 t = 1、··· 和 T 为止,总共不存在 T 条回归线。它只是一条回归线
○ 不是 β1, t 而是 β1 > ③【算法示例】(http://www.pearsonglobaleditions.com/)
数据 <- 读取.csv("C:/Users/sun/Desktop/Guns.csv",标题 = T) 附加(数据) y <- 数据[, 2] y <- log(y) x1 <- 数据[, 13] x2 <- 数据[, 5] x3 <- data[, 11] x4 <- 数据[, 10] x5 <- data[, 9] x6 <- data[, 6] x7 <- data[, 7] x8 <- data[, 8] state_y <- 数组(dim = 56) state_x1 <- 数组(dim = 56) state_x2 <- 数组(dim = 56) state_x3 <- 数组(dim = 56) state_x4 <- 数组(dim = 56) state_x5 <- 数组(dim = 56) state_x6 <- 数组(dim = 56) state_x7 <- 数组(dim = 56) state_x8 <- 数组(dim = 56)for(i 在 1:56){ <span style=“color:#008800; font-weight:bold”>if</span>(i <span style=“color:#333333”>!=</span> <span style=“color:#0000DD; font-weight:bold”>3</span> <span style=“color:#333333”>&&</span> i <span style=“color:#333333”>!=</span> 7 && i != 14 && i != 43 && i != 52){ data_sub <- data[stateid == i, ] state_y[i] <-mean(data_sub[, 2]) state_x1[i] <-mean(data_sub[, 13]) state_x2[i] <-mean(data_sub[, 5]) state_x3[i] <-mean(data_sub[, 11]) state_x4[i] <- 意思(data_sub[, 10]) state_x5[i] <-mean(data_sub[, 9]) state_x6[i] <-mean(data_sub[, 6]) state_x7[i] <-mean(data_sub[, 7]) state_x8[i] <-mean(data_sub[, 8]) } } Y <- 数组(dim = 1173) X1 <- 数组(dim = 1173) X2 <- 数组(dim = 1173) X3 <- 数组(dim = 1173) X4 <- 数组(dim = 1173) X5 <- 数组(dim = 1173) X6 <- 数组(dim = 1173) X7 <- 数组(dim = 1173) X8 <- 数组(dim = 1173)<span style =“color:#008800; font-weight:bold”> for </span>(i <span style =“color:#000000; font-weight:bold”>在</span> <span style =“color:#0000DD; font-weight:bold”>1</span>:暗淡(数据)[<span style =“color:#0000DD; font-weight:bold”>1</span>]){ j <- data[i, 12] Y[i] <- y[i] - state_y[j] X1[i] <- x1[i] - state_x1[j] X2[i] <- x2[i] - state_x2[j] X3[i] <- x3[i] - state_x3[j] X4[i] <- x4[i] - state_x4[j] X5[i] <- x5[i] - state_x5[j] X6[i] <- x6[i] - state_x6[j] X7[i] <- x7[i] - state_x7[j] X8[i] <- x8[i] - state_x8[j] } 关系 <- lm(Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8) 摘要(关系) </前></div>
> ④ 当应用固定效应回归模型得出的结论与原始结果有显着差异时 >> ○ 强烈暗示原始模型中存在遗漏变量偏差 > ⑤ 即使满足主要假设,也可能存在自相关 >> ○ 自相关**:** uit 和 uit\* (t ≠ t\*) 也具有序列相关性。与 HAC 相关 >> ○ 无自相关的情况
图 1. 没有自相关的情况
>> ○ 有自相关的情况
图 2. 具有自相关的情况
>> ○ 无自相关情况下 cov(vit, vis) = 0 (假设 k ≠ s) 的证明
![]()
⑷ 固定效应回归模型的矩阵表示法 > ①造型
![]()
> ②假设
![]()
> ③固定效应估计器
![]()
> ④一致性![]()
> ⑤渐近正态性
![]()
⑸ 最小二乘虚拟变量模型(LSDV) > ①公式
![]()
> ② 不包含D1i的原因**:**避免完美多重共线性 >> ○ 公式
![]()
>> ○ 如果系数存在,则不能指定γ1 >> ○ 虚拟变量引起的完全多重共线性也称为虚拟变量陷阱 > ③ 如果i(即n)的范围太大,则无法进行回归分析**:**因为回归变量太多 ⑹时间效应 > ①时间效应项**:**标记为λt
![]()
> ②造型
![]()
> ③【算法示例】(http://www.pearsonglobaleditions.com/)
数据 <- 读取.csv("C:/Users/sun/Desktop/Guns.csv",标题 = T) 附加(数据) # 定义 y <- 数据[, 2] y <- log(y) x1 <- 数据[, 13] x2 <- 数据[, 5] x3 <- data[, 11] x4 <- 数据[, 10] x5 <- data[, 9] x6 <- data[, 6] x7 <- data[, 7] x8 <- data[, 8]#消除固定状态效果 state_y <- 数组(dim = 56) state_x1 <- 数组(dim = 56) state_x2 <- 数组(dim = 56) state_x3 <- 数组(dim = 56) state_x4 <- 数组(dim = 56) state_x5 <- 数组(dim = 56) state_x6 <- 数组(dim = 56) state_x7 <- 数组(dim = 56) state_x8 <- 数组(dim = 56)for(i 在 1:56){ <span style=“color:#008800; font-weight:bold”>if</span>(i <span style=“color:#333333”>!=</span> <span style=“color:#0000DD; font-weight:bold”>3</span> <span style=“color:#333333”>&&</span> i <span style=“color:#333333”>!=</span> 7 && i != 14 && i != 43 && i != 52){ data_sub <- data[stateid == i, ] state_y[i] <-mean(data_sub[, 2]) state_x1[i] <-mean(data_sub[, 13]) state_x2[i] <-mean(data_sub[, 5]) state_x3[i] <-mean(data_sub[, 11]) state_x4[i] <- 意思(data_sub[, 10]) state_x5[i] <-mean(data_sub[, 9]) state_x6[i] <-mean(data_sub[, 6]) state_x7[i] <-mean(data_sub[, 7]) state_x8[i] <-mean(data_sub[, 8]) } } Y <- 数组(dim = 1173) X1 <- 数组(dim = 1173) X2 <- 数组(dim = 1173) X3 <- 数组(dim = 1173) X4 <- 数组(dim = 1173) X5 <- 数组(dim = 1173) X6 <- 数组(dim = 1173) X7 <- 数组(dim = 1173) X8 <- 数组(dim = 1173)<span style =“color:#008800; font-weight:bold”> for </span>(i <span style =“color:#000000; font-weight:bold”>在</span> <span style =“color:#0000DD; font-weight:bold”>1</span>:暗淡(数据)[<span style =“color:#0000DD; font-weight:bold”>1</span>]){ j <- data[i, 12] Y[i] <- y[i] - state_y[j] X1[i] <- x1[i] - state_x1[j] X2[i] <- x2[i] - state_x2[j] X3[i] <- x3[i] - state_x3[j] X4[i] <- x4[i] - state_x4[j] X5[i] <- x5[i] - state_x5[j] X6[i] <- x6[i] - state_x6[j] X7[i] <- x7[i] - state_x7[j] X8[i] <- x8[i] - state_x8[j] } #消除固定时间效果 time_Y <- 数组(dim = 23) time_X1 <- 数组(dim = 23) time_X2 <- 数组(dim = 23) time_X3 <- 数组(dim = 23) time_X4 <- 数组(dim = 23) time_X5 <- 数组(dim = 23) time_X6 <- 数组(dim = 23) time_X7 <- 数组(dim = 23) time_X8 <- 数组(dim = 23)for(t 中 77:99){ data_sub2 <- 数据[年份 == t, ] time_Y[t - 76] <-mean(data_sub2[, 2]) - 意思(state_y, na.rm = TRUE) time_X1[t - 76] <-mean(data_sub2[, 13]) - 平均值(state_x1, na.rm = TRUE) time_X2[t - 76] <-mean(data_sub2[, 5]) - 平均值(state_x2, na.rm = TRUE) time_X3[t - 76] <-mean(data_sub2[, 11]) - 平均值(state_x3, na.rm = TRUE) time_X4[t - 76] <-mean(data_sub2[, 10]) - 平均值(state_x4, na.rm = TRUE) time_X5[t - 76] <-mean(data_sub2[, 9]) - 平均值(state_x5, na.rm = TRUE) time_X6[t - 76] <-mean(data_sub2[, 6]) - 平均值(state_x6, na.rm = TRUE) time_X7[t - 76] <-mean(data_sub2[, 7]) - 平均值(state_x7, na.rm = TRUE) time_X8[t - 76] <-mean(data_sub2[, 8]) - 平均值(state_x8, na.rm = TRUE) }YY <- 数组(dim = 1173) XX1 <- 数组(dim = 1173) XX2 <- 数组(dim = 1173) XX3 <- 数组(dim = 1173) XX4 <- 数组(dim = 1173) XX5 <- 数组(dim = 1173) XX6 <- 数组(dim = 1173) XX7 <- 数组(dim = 1173) XX8 <- 数组(dim = 1173) <span style =“color:#008800; font-weight:bold”> for </span>(i <span style =“color:#000000; font-weight:bold”>在</span> <span style =“color:#0000DD; font-weight:bold”>1</span>:暗淡(数据)[<span style =“color:#0000DD; font-weight:bold”>1</span>]){ j <- data[i, 1] YY[i] <- Y[i] - time_Y[j - 76] XX1[i] <- X1[i] - time_X1[j - 76] XX2[i] <- X2[i] - time_X2[j - 76] XX3[i] <- X3[i] - time_X3[j - 76] XX4[i] <- X4[i] - time_X4[j - 76] XX5[i] <- X5[i] - time_X5[j - 76] XX6[i] <- X6[i] - time_X6[j - 76] XX7[i] <- X7[i] - time_X7[j - 76] XX8[i] <- X8[i] - time_X8[j - 76] }关系 <- lm(YY ~ XX1 + XX2 + XX3 + XX4 + XX5 + XX6 + XX7 + XX8) 摘要(关系) </前></div>
⑺ 使用虚拟变量的时间效应回归 > ①公式
![]()
> ② 不包含B1t的原因**:**避免完美多重共线性 >> ○ 公式
![]()
>> ○ 如果系数存在,则不能指定δ1 >> ○ 虚拟变量引起的完全多重共线性也称为虚拟变量陷阱
## **3。工具变量** ⑴定义**:**使用第三个变量仅分离回归变量的本质信息的方法 ⑵ 简单表达 > ①造型 >> ○ 如果有一个回归变量
![]()
>> ○ 如果有多个回归变量
![]()
>> ○ 内生变量 **:** 与 ui 相关的变量 >> ○ 外生变量 **:** 与 ui 不相关的变量 >> ○ 准确识别 **:** m = k >> ○ 过度识别 **:** m > k >> ○ 识别不足 **:** m < k >> ○ 无法在未识别的情况下进行建模 **:** 这意味着应该有很多工具变量 >> ○ 包含 W 的原因 **:** 当很难找到满足条件的 Z 时很有用
![]()
> ② 使用工具变量的假设 >> ○ **假设 1.** E(ui | W1i, ···, Wri) = 0 >> ○ **假设 2.** (X1i, ···, Xki, W1i, ···, Wri, Z1i, ···, Zmi, Yi) 是独立同分布的。 >> ○ **假设 3.** 所有变量都有有限的四阶矩 >> ○ **假设** **4.** 工具变量有效性 >>> ○ **4-1.** 仪器相关性 >>> ○ **4-2.** 仪器外生性 >>> ○ **4-3.** 无完全共线性 >> ○ 如果满足假设,则 TSLS 估计量满足一致性和渐近正态性 > ③ 程序 >> ○ 如果有一个回归变量 >>> ○ 第一第一。使用工具变量 Zi 对 Xi 进行回归分析
![]()
>>> ○ 第二第二。计算 Xi 的估计量
![]()
>>> ○ 第三第。使用 Xi 的估计器对 Yi 进行回归分析
![]()
>> ○ 如果有多个回归变量 >>> ○ 第一第一。使用工具变量 **Zi** **:** 对 ℓ = 1, ···, k, 对 **Xi** 进行回归分析,
![]()
>>> ○ 第二第二。计算 **Xi** **:** 对于 ℓ = 1, ···, k,
![]()
>>> ○ 第三第。使用 **Xi** **:** for ℓ = 1, ···, k 的估计器对 Yi 进行回归分析,
![]()
>> ○ 进行两次 OLS 回归可能会错误计算标准误差 > ④ 两步最小二乘法(TSLS)估计器 >> ○ 公式
![]()
>> ○ 证明
![]()
>> ○(注)如果 Zi **:**\= Xi,则 β1 的 TSLS 估计器与 β1 的 OLS 估计器相同
![]()
> ⑤ 一致性
![]()
> ⑥ 渐近正态性
![]()
⑶工具变量有效性的补充 > ① 仪器相关性 >> ○ 公式
![]()
>> ○ 弱工具变量**:** 工具变量与回归变量相关性不充分的情况。估计值显示出非常奇怪的值 >> ○ 仪器变强度测试 >>> ○ 计算第一阶段F统计量时,如果F大于10,则工具变量较强
![]()
>>> ○ 仅适用于**同方差** >>> ○ W1i, ···, Wri 与工具变量的强度无关 > ②仪器外生性 >> ○ 公式
![]()
>> ○ 必须指定 u 才能了解工具外生性![]()
>> ○ 过度识别限制测试 >>> ○ 当计算以下统计量时,J 服从自由度为 m-k 的卡方分布
![]()
>>> ○ J, H0 **:** 工具变量是外生的命题 >>> ○ 逻辑与仪器相关性类似 **:** 如果F统计量很小,则说明不存在相关性(所有系数均为0) >>> ○ 仅适用于**同方差** **:** 许多统计程序还提供异方差稳健 J 检验 >>> ○ 拒绝零假设时无法确定哪个工具变量是内生的 >> ○ J统计量中自由度的含义 >>> ○ k 个工具变量用于制作残差:它们对应于 k 个内生变量 >>> ○ 剩余的m-k个工具变量用于检验与残差的相关性 >>> ○ 在准确识别的情况下无法应用 J 检验,因为没有工具变量可用于相关关系分析:这种情况下 J 统计量始终为零 > ③不存在完美共线性
![]()
⑷ 矩阵表示法 > ①造型
![]()
>> ○ Xi 和 Zi 可能重叠 > ②假设 >> ○ Yi \= **Xi**tβ + ui >> ○ (Yi, **X****i**, **Z****i**), i = 1, ···, N 是 i.i.d. >> ○ E(ui | **Z****i**) = 0 >> ○ E(**Z****i****Xi**t), E(**Z****i****Zi**t) 有逆矩阵 >> ○ **Z****i**,,**Xi**, 和 ui 具有有限的四阶矩 > ③ 程序 >> ○ 第一第一。使用工具变量 **Z****i** 对 **X****i** 进行回归分析 >> ○ 第二第二。计算 **X****i** 的估计量 >> ○ 第三第。使用 **X****i** 的估计器对 Yi 进行回归分析 > ④ 估计器
![]()
> ⑤ 一致性
![]()
> ⑥ 渐近正态性
![]()
> ⑦ 正态分布方差的估计量
![]()
⑸ 工具变量的探索**:**探索是在艺术领域 > ① 约书亚·安格里斯特(麻省理工学院) > ②史蒂文·莱维特(芝加哥)**:**发表《魔鬼经济学》> ③ Daron Acemoglu(麻省理工学院)**:**发表《国家为何失败》
## **4\.随机对照实验** ⑴概述 > ①定义**:**从人群中随机抽取受试者,然后再次随机分组,进行不同的治疗 > ②随机对照实验在计量经济学中很少见 > ③随机对照实验可以消除遗漏变量偏差**:**不保证100%有效性 > ④ 提供了判断因果关系的标准 ⑵ 公式 > ①简单模型
![]()
> ② 模型包括附加回归变量
![]()
> ③增加额外回归变量的原因 >> ○ **原因 1.** 随机化检查 >>> ○ 无论是否存在附加回归变量,β1 都是一致的 >>> ○ 如果 β1 根据是否存在其他回归变量而发生显着变化,则不是随机的 >> ○ **原因2.**效率**:**如果有额外的回归变量,方差会更小 >> ○ **原因 3.** 条件随机化 >>> ○ 根据人的个体特征,即使看起来是随机提取的,也可能不是随机的 >>> ○ 固定附加回归变量的随机抽样可以最大限度地减少此类担忧 >>> ○ 要使 β1 估计量保持一致,必须满足以下条件独立性:比独立性更弱的条件
![]()
>> ○ 相互作用**:** 治疗效果取决于W
![]()
⑶ 对内部效度的威胁 > ① 未能随机化 >> ○ 不仅出现处理效果,还出现非随机分配效果 >> ○假设检验**:**使用Xi对W1i、···、Wri的治疗前特征进行回归分析时,若系数均为零,则该实验可视为随机实验 >> ○ 示例**:** 如果按姓名进行随机处理,则可能会优先将特定种族分配到处理组 > ② 未能遵循治疗方案(部分依从) >> ○ 定义**:** 即使随机处理效果很好,受试者也可能无法很好地遵守协议 >> ○ 因此,Xi 可以与 ui 关联 >> ○ 随机鼓励设计 **:** 如果以随机治疗为工具变量,并在工具变量回归下分析真实治疗,则可以确定部分依从性 > ③自然损耗 >> ○ 定义**:** 随机抽样后因与治疗相关的原因排除受试者 > ④ 霍桑效应 >> ○ 定义 **:** 受试者对他或她正在进行的实验的了解会影响实验结果 >> ○ 在新药研究中,可以采用双盲试验来避免这个问题 >> ○ 计量经济学难以进行双盲测试 > ⑤ 小样本 >> ○ 由于与人类相关的研究费用昂贵,样本量较小 >> ○ 许多统计估计都是基于渐近正态性>> ○ 如果样本量较小,则不应采用正态分布来估计样本 ⑷ 外部有效性的威胁 > ①非代表性样本 >> ○ 一般计量经济学实验针对本科生志愿者 >> ○ 志愿者更有动力,在测量效果方面可能被高估 > ②非代表性计划或政策 >> ○ 试点方案或政策应与实际相近 >> ○ 示例**:** 实验程序执行时间很短。现实生活中感兴趣的领域可能需要更长的时间 > ③一般均衡效应 >> ○ 定义**:** 治疗改变整体环境,可以放大或抑制治疗的有效性 >> ○ 小实验不能反映环境的变化,因此必须单独考虑外部效度
## **5.** **准实验** ⑴定义 > ① 自变量不受研究者控制且在自然情况下进行的实验 > ②又称自然实验 > ③目标**:**方案评估 ⑵ **方法 1.** 双重差分 (DID) 估计器 > ①最简单模型(假设面板数据)
图 3. DID 估计器的图形表示
![]()
> ② 具有附加回归变量的模型(假设面板数据)**:**因为数据前后条件可能会发生变化
![]()
> ③重复截面数据的判据
![]()
⑶ **方法2.** 工具变量回归 > ① 第一第一。将 Zi 定义为随机对照实验中的回归变量 > ② 第二第二。 Zi 对于 Xi** 来说是一个很好的工具变量:** 满足工具相关性 > ③ 第三第。意是兴趣的结果。 > ④ 第 4。以 Zi 作为工具变量评估 Xi 对 Yi 的影响 ⑷ **方法3.** 断点回归设计(RDD) > ①概述 >> ○ 如果设置阈值(截止)ω0,阈值附近的数据可能会相似 >> ○ 当阈值附近的数据进行不同处理时,以下差异完全可以看作是处理效果 >> ○ 这是一种非常流行的实验技术 >> ○ 缺点 **:** 很难将回归不连续性设计应用于异常值 > ② 锐回归间断设计
图 4. 急剧回归不连续性设计
![]()
> ③ 模糊回归间断点设计 >> ○ 实验可能不会像锐回归不连续性设计中定义的 Xi 那样顺利进行测试 >> ○ 下面的工具变量 Zi 可以作为实际 Xi 上的一个很好的工具变量![]()
⑸ 对内部有效性的威胁 > ① 未能随机化 >> ○ 不仅出现处理效果,还出现非随机分配效果 >> ○ 假设检验 **:** 使用 Xi 对 W1i、···、Wri 的治疗前特征进行回归分析时,如果系数均为零,则该实验可视为随机实验 >> ○ 示例 **:** 如果按姓名进行随机处理,则可能会优先将特定种族分配到处理组 > ② 未能遵循治疗方案(部分依从) >> ○ 定义 **:** 即使随机处理效果很好,受试者也可能无法很好地遵守协议 >> ○ 因此,Xi 可以与 ui 关联 >> ○ 随机鼓励设计**:**如果以随机治疗为工具变量,并在工具变量回归下分析真实治疗,则可以识别部分依从性 > ③自然损耗 >> ○ 定义**:** 随机抽样后因与治疗相关的原因排除受试者 > ④ 无霍桑效应 >> ○ 没有理由对准实验中的霍桑效应持谨慎态度**:**因为这是一个自然实验 > ⑤ 工具方差有效性 >> ○ 可以通过数据评估仪器相关性 >> ○ 即使工具变量看似随机分配,工具外生性也可能无法成立 >> ○ 示例**:** 即使研究人员希望根据抽签数查看收入,Xi 和 ui 也可能存在相关性,同时诱导少数人采取行动避免征兵 ⑹ 外部效度的威胁 > ①非代表性样本 > ②非代表性计划或政策 > ③一般均衡效应 ⑺批评 > ①尝试在准实验中寻找好的变量 > ② 真正好的准实验并不多
## **6\.异质人群** ⑴定义**:**回归线β0i、β1i的系数不是常数而是根据样本而变化的情况
![]()
> ① β1i **:** Xi 的异质效应 > ② 感兴趣的参数是 E(β1i) > ③ 如果 β1i 可观测,则可以使用使用交互作用的模型 > ④ 若β1i不可观测,则分析如下 ⑵ 最小最小二乘法 > ① 假设 **:** Xi 应该是随机的 → Xi 和 (ui, β0i, β1i) 应该是独立的 >> ○ 实际中难以满足的条件 > ② 公式
![]()
⑶ 工具变量估计(IV) > ① 假设 **:** Zi 应该是随机的 → Zi 和 (ui, vi, β0i, β1i, π0i, π1i) 应该是独立的 > ② 公式
![]()
>> ○ E(β1iπ1i) / E(π1i) 称为局部平均治疗效果(LATE) > ③均衡LATE和ATE的条件>> ○ **情况 1.** β1i = β1 = 常数**:** 不需要异方差 >> ○ **情况 2.** π1i = π1 **:** 工具变量无异方差 >> ○ **情况 3.** β1i 和 π1i 是独立的 > ④内涵 >> ○ 仪器外生性难以评估 >> ○ J-test 只能说明 LATE 之间的差异
--- *输入:2019.11.26 10:29*