第 16 章。线性回归分析

高级类别：【统计】【统计概述】(https://jb243.github.io/pages/1641)

1. 回归分析

2. 简单线性回归模型

3. 多元线性回归模型

a. R 中的回归分析

–

1. regression analysis

⑴回归分析：将某一特定变量表示为一个或多个其他变量的依赖关系

① 更准确地说，y ~ X（假设 y ∈ ℝ）

○ 包含在监督算法中

○ (注) 分类: y ~ X (assyming ㅣ { y } ＜ ∞ )

○（注）Engression：虽然一般回归假设 Y = g(X) ± ε，但 engression 模型却是 Y = g(X + ε)，这使得外推成为可能（其中 ε 是噪声）。

② 特定变量：名称因变量具有代表性，但有多个名称

○ Response variable

○ Outcome variable

○ 目标变量

○ Output variable

○ 预测变量

③其他变量：名称自变量具有代表性，但有多种名称

○ 实验变量

○ 解释变量

○ 预测变量

○ 回归器

○ Covariate

○ 控制变量

○ 调节变量

○ Exposure variable

○ Risk factor

○ Input variable

○ Feature

⑵（比较）交叉分析和方差分析

①回归分析：自变量是可测量变量。因变量是可测量变量

○ 回归分析显示自变量与因变量的因果关系

○ 不需要实际因果关系的证明，因为目的就是预测本身

○ 示例 : 6 岁儿童未钙化骨骼的长度可以预测身高的额外增长，但不是因果关系

②交叉分析：自变量是分类（分类）变量。因变量是分类（分类）变量

○ 交叉分析简单来说就是变量之间相关性的表示

③方差分析：自变量是分类（分类）变量。因变量是可测量变量

⑶一元回归分析和多元回归分析

①简单回归分析：具有一个自变量的回归

② 多元回归分析：具有多个自变量的回归

⑷ 变量选择方法

① 正向选择

○ 步骤 1. 从仅包含截距的常量模型开始

○ 步骤 2. 依次添加对模型重要的自变量

② 后向淘汰法

○ 步骤 1. 从包含所有候选自变量的模型开始

○ 步骤 2. 从基于平方和影响最小的变量开始，一一删除变量

○ 步骤 3. 继续删除自变量，直到不再有统计上不显着的变量

○ 步骤4. 此阶段选择型号

③ 逐步法

○ 逐步添加：如果现有变量的重要性因添加新变量而减弱，则删除受影响的变量

○ 逐步消除：检查哪些变量被删除，当没有更多变量可以删除时停止

⑸ 选型标准

① 概述

○ 模型复杂度惩罚方法

○ 计算所有候选模型的AIC和BIC，选择值最小的模型

② AIC（赤池信息准则）» ○ AIC = -2 ln(L) + 2p（其中ln(L)是模型拟合，L是似然函数，p是参数数量）

○ 目的：由于参数多的模型容易过拟合，因此按参数数量的比例进行惩罚。

○ 显示实际数据分布与模型预测分布之间差异的指标

○ 值越低表示模型拟合越好

○ 随着样本量的增加，准确性会降低

③ BIC（贝叶斯信息准则）

○ BIC = -2 ln(L) + p ln n（其中ln(L)是模型拟合，L是似然函数，p是参数个数，n是数据点个数）

○ 随着样本量的增加，补偿 AIC 的不准确性

○ 随着样本量的增加，对更复杂的模型进行更严厉的惩罚

④ AIC_c

○ AIC_c = AIC + 2K(K+1) / (N-K-1)，其中 N 是样本数

○ 目的：解决随着样本量增大，AIC 准确度降低的问题。

2.简单线性回归模型

⑴ 定义：简单回归分析的情况，其中依赖性显示为线性函数

⑵ 数据的表示

图 1. 简单线性回归模型

① β₀ : y 截距

② β₁ : X 上的斜率或系数

○ 也称为参数、回归系数、权重等

○ 直观上来说，弹性就是斜率绝对值大的程度

○ 在微观经济学中，弹性是指斜率乘以(-1)。

③回归线的类型

○ 总体回归线：根据总体特征得到的回归线

○拟合回归线：根据样本特征得到的回归线

④ u_i : 残差

⑤残差与误差的区别

○ 后面提到的误差其实就是残差

⑥ 方差特征

○ 同方差: VAR(u_i | X_i) 和 Xi 是独立的。一个不切实际的假设。许多统计程序的默认设置

○ 异方差性 **: VAR(u_i | X_i) 取决于 X_i

○（注意）具有同方差性的模型是一个好模型

⑶ 假设

① 假设 1. X_i 未提供有关错误的任何信息

○ 如果残差图上有模式，则该模型不是好模型

② 假设 2. (X_i, y_i) 是 i.i.d.

③ 假设3. 4^阶矩的存在

⑷ 拟合回归线的归纳 > ① 方法1. 矩估计器(MOM)或样本模拟估计的方法

○ 计算过程

② 方法 2.最小二乘法或普通最小二乘法（OLS）

○ 定义：计算误差平方和的最小值（SSE）

○ 所有统计软件均提供

○ 计算过程 : 如果 X_i 是一维

○ 最小二乘法基于最大似然估计（假设残差具有同方差性和正态性）

○ X到Y的回归和Y到X的回归一般不一样

○ E(X₂), E(XY), E(X)等参与X到Y的回归

○ E(Y₂)、E(XY)、E(Y)等参与Y到X的回归

○ E(X₂), E(Y₂), 等造成不对称

③ 方法3. 【交叉熵】(https://jb243.github.io/pages/2145)

○ 一般定义

○ 二元分类

○ 如果 y 表示为 one-hot 向量 [0, ···, 1, ···, 0]，则以下成立

⑸ 回归线的【特点】(https://jb243.github.io/pages/1630)

① 概述

② 公正性

③ 效率

○ 高斯-马尔可夫定理： OLS 在满足同方差性时有效

④ 一致性

⑤ 渐近正态性

○ 坡度

○ y 截距 - 异方差性 - 稳健标准误

○ y 截距 - 同方差性-稳健标准误

⑹ 回归线的评估

① 标准 1. 线性

② 标准 2. 同方差性：具有相等方差的残差项> ③ 标准 3. 正态性 : 遵循正态分布的残差项

○ Box-Cox ：在线性回归模型中难以假设正态性的情况下，此方法会将因变量转换为更接近正态分布。

⑺ 决定系数：也称为R平方

①决定系数R2

○ 定义

○ SST : 总变化

○ SSR : 回归方程的变化

○ SSE : 由于错误而发生变化

○ SSE也称为残差平方和（RSS）、残差平方和（SSR）

○ 术语 ■ 为 0** 的原因：** 因为偏差和机会误差的协方差直观上为 0

○ 含义

○ 含义 1. X可以描述的Y的方差比例（无单位）

○ 含义 2. 回归线描述的平方和 ÷ 总平方和

②决定系数与相关系数的平方相同

③ 无法解释的方差分数（FVU）

④ 特点

○ 0 ≤ R² ≤ 1

○ R²越接近1，回归线的拟合优度越好

○ β₁ = 0 的估计量 ⇒ R² = 0

○ R² = 0 ⇒ β₁ = 0 或 X_i = 常数的估计量

⑻平均误差回归

① 上证所公式

②上证所预期值

○ 总自由度 = 残差自由度 + 回归线自由度

○ 总自由度 = n-1

○ 回归线自由度 = 1 (∵ 只有一个回归变量)

○ 残差自由度 = n-2

③ 均方误差（MSE）

④ 标准误差回归（SER）

⑤ SSE 和无偏方差估计量

⑼ 例1. 回归的词源

图 2. 回归的词源

① X : 父亲的身高

② Y ：儿子的身高> ③ E(X) = 67.7, E(Y) = 68.7, σ_X = 2.7, σ_Y = 2.7, ρ_XY = 0.5

④ E(Y | X = 80) = 74.85

⑤ E(Y | X = 60) = 64.85

⑥结论

○ 高父亲的儿子往往会变矮

○ 父亲矮的儿子往往会长高

○ 儿子身高终于趋于平均水平

○ 然而，由于上述趋势仅基于期望值，因此儿子一代身高的方差不一定低于父亲一代身高的方差

⑽ 示例 2. 预测自变量范围之外的 Y 值：也称为外推法

①一般情况下不宜采用外推法

图 3. 外推问题

② 外推法并不总是错误的

○ 例子：生物进化研究

⑾【线性回归和二元正态分布的示例问题分布](https://blog.kakaocdn.net/dn/JMcdz/btsLJABUa7u/kWPry4j0RkcYiqBLKr2vM0/%E1%84%89%E1%85%A5%E1%86%AB% E1%84%92%E1%85%A7%E1%86%BC%E1%84%92%E1%85%AC%E1%84%80%E1%85%B1%2016%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)

⑿Python代码

来自 <span style=“color：#0e84b5; font-weight：bold”>sklearn</span> <span style=“color：#008800; font-weight：bold”>导入</span> Linear_model 
reg = Linear_model.LinearRegression() 
reg.fit([[0, 0], [1, 1]，[2，2]]，[0，1，2])
# 线性回归() 
reg.coef_ 
# 数组([0.5, 0.5])
</前></div>







## **3。多元线性回归模型**  

⑴定义**：**多元回归分析的情况，其中相关性显示为线性函数  

⑵ 省略变量偏差 

> ①定义**：**由于遗漏变量导致误差期望值不为零的现象









>> ○内生变量**：**与ui相关的变量  

>> ○ 外生变量**：** 与 ui 不相关的变量  

> ② **条件1.**省略的变量和回归量（_例如_，X_i）应该具有相关性

> ③ **条件** **2.**省略的变量应该是Y的决定因素> ④ 斜率的收敛值









>> ○ ρ_Xu ＞ 0 **:** 向上偏压

>> ○ ρ_Xu ＜ 0 **:** downward bias

> ⑤ 如果增加新变量时系数值变化较大，则可以说存在遗漏变量基础

⑶ representation of data









> ① 在上述估计量中观察到无偏性、一致性和渐近联合正态性 

> ② 鲁棒性**：** 添加新的回归量不会显着改变回归量的任何斜率值的特性 

> ③灵敏度**：**添加新的回归量会显着改变特定回归量的斜率值的特性 

⑷ 假设

> ① **假设** **1.** 错误不能由 X_1i 解释，, ···, X_ki

> ② **假设** 2.** (X_1i, ···, X_ki,Y_i) 是 i.i.d.  

> ③ **假设3.** 存在四阶矩









> ④ **假设 4.** 不存在完美多重共线性 

>> ○ 多重共线性 **：**一个自变量与另一个自变量的线性组合高度相关的特征

>>> ○（注）多元线性回归模型期望自变量真正独立 

>> ○ 完美多重共线性**：** 如果一个回归量与其他回归量具有完美线性。行列式值 = 0

>>> ○ 完美多重共线性不是变量的本质，而是数据集的本质









>>> ○ 当您尝试对完美多重共线性数据进行回归分析时，可能的系数数量是无限的**：** **不可能** 执行回归分析 

>> ○ 不完美多重共线性 **:** 两个或多个回归变量只是高度相关

>>> ○ 立刻不是问题

>>> ○ 斜率估计器的方差相当大 → 难以信任斜率估计器






图4.多重共线性增加斜率估计量方差的原因

⒝ 显着性区间内可能存在多种平面




>>> ○ 一般来说，一对变量的相关性不应超过0.9

>> ○ 解决方案

>>> ○ 绘制所有组合的成对图并删除高度相关的变量

>>> ○ PCA、加权和等可以尝试，但各有各的缺点

>> ○（注）R Studio 在分析完美多重共线性数据时随机忽略最后一个有问题的项

⑸ OLS估计器**：**通过计算以下联立方程来确定系数 









⑹ 回归线的特点







> ① 公正性

> ②一致性 

> ③渐近联合正态性

> ④ 弗里希-沃定理 









⑺调整R²

> ①R²的缺点 **：**拟合程度在多元回归模型中没有得到很好的体现

>> ○ **缺点 1.** 每当添加新的回归量时，R² 总是会增加，因为 SSE 的最小值会减小

>> ○ **缺点 2.** 高 R² 无法验证是否存在遗漏变量偏差  

>> ○ **缺点 3****.** 高 R² 不能验证当前回归器是否最优 

>> ○ 为解决**缺点1**，引入调整后的R2

> ② 公式









> ③特点 

>> ○ 调整后的 R² ≤ R²

>> ○ 调整后的 R² 可以为负值

>> ○ 添加不适当的变量后，值会减小

⑻ 标准误差回归（SER）**：** k 为回归方程中自变量的数量









⑼ 联合假设**：**当存在大于或等于2个约束条件时的假设

> ① **想法 1.** t1 和 t2 是独立的









② **想法2.** t₁ 和 t₂ 存在多重共线性









> ③一般情况









>> ○ 一般情况下，使用异方差稳健 F 统计量

>> ○ 许多统计程序都将同方差稳健 F 统计量作为默认设置

> ④原假设 









⑽ 多元线性回归模型的重新定义 









> ① H₀ **:** 如果要测试 β₁ = β₂,  









> ② H₀ **:** 如果要测试 β₁ + β₂ = 1, 









⑾ 条件平均独立性

> ①定义









> ② 对于给定的 X_2i，X_1i 与 ui 不相关 

> ③ β₂ 可能不具有一致性**：** 但这并不重要 

⑿ 矩阵表示法

> ①线性回归模型>> ○ 对于标量 Y、列向量 X 和 β， 









>> ○ 概括









> ②假设

>> ○ **假设 1.** E(u_i | X_i) = 0 

>> ○ **假设 2.** (X_i, Y_i), i = 1, ···, n 为 i.i.d. 

>> ○ **假设 3.** X_i 和 u_i 具有非零有限四阶矩 

>> ○ **假设** **4.** 0 ＜ E(X_iX_i^t) ＜ ∞，不存在完美多重共线性 

> ③ OLS建模-简单版









> ④ OLS建模









> ⑤ 一致性









> ⑥多元中心极限定理









> ⑦ 渐近正态性









> ⑧ 鲁棒标准误（Eicker-Huber-White 标准误）









> ⑨ 稳健的F









---

*输入：2019.06.20 23:26*

6632

第 16 章。线性回归分析

1. regression analysis

2.简单线性回归模型

results matching ""

No results matching ""