第 18 讲。回归分析中的正则化（正则化、惩罚）

推荐帖子：【统计】【统计目录】(https://jb243.github.io/pages/1641)

1. 概述

2. MSPE

3. 技术1. 岭回归

4.技术 2. LASSO 回归

5.技术3. 弹性网

6。技术 4. SelectFromModel

1.概述

⑴ 回归分析中的问题：主要在回归变量较多时突出

①【多重共线性】(https://jb243.github.io/pages/1632)

② 欠拟合：模型缺乏灵活性，无法正确学习给定数据

③ 过拟合

○ 在 OLS 估计等标准回归中，模型会学习样本中的噪声，从而降低预测能力

○ 在训练过程中学习偏差实际上可以提高预测能力

⑵ 正则化（惩罚）

① 解决回归问题，在参数中添加惩罚项

② 注意，不应用正则化会导致过拟合，过多会导致欠拟合

③ 必须对数据进行标准化处理

○ 值较大的特征系数较大，可能会受到过度惩罚并收缩太多

○ 相反，具有较小值的特征具有较小的系数，并且可能受到较少的惩罚

④ 有时包括使用验证集优化参数（例如惩罚项权重）的过程

⑤ 正规化预期效果

图1. 正则化的预期结果

2. MSPE

⑴ 概述

①误差：假设e为平方误差，h为假设，f为真函数

② 类型1. 样本内误差：也称为训练误差。类似于偏见

③ 类型2. 样本外误差：也称为泛化误差，MSPE。类似于方差

○ 步骤 1. 使用给定样本构建预测模型

○ 步骤 2. 使用样本外部的数据（XOOS、YOOS）比较预测值和实际值

○ 注：ŷ 指使用样本内数据获得的预测

④（参考）【偏差-方差权衡】(https://jb243.github.io/pages/1630)

⑤ 最佳预测量：称为预言机。 E(YOOS XOOS)

○ MSPE中的预测误差如下

○ 根本错误：无法改进。 YOOS - E(YOOS XOOS)

○ 估计误差：Ŷ(XOOS) - E(YOOS XOOS)

⑵ MSPE估计器

① 如果 β 已知，则 MSPE = σu2 成立

② k/n可能很大

⑶ 假设

① 假设1. 无多重共线性

② 假设2.（XOOS、YOOS）是从同一人群中随机抽取的

⑷ 变换

① 标准化

○ (Xi1,…,Xki,Yi*)是从原始样本中提取的值

○ 定义 Xji 为 (Xji* - μXj) / σXj

○ 因变量变换为 Yσj ← Yσj - μY*

② 收缩原理

○ 可以降低MSPE

○ 出现偏差：权衡

○ 最著名的例子是 James-Stein 估计器

⑸ 样本内MSPE计算：常用m倍交叉验证> ① 第一^第一。将给定样本分成 m 部分

② 第二^第二。使用 m-1 部分来估计参数：训练数据

③ 第三^第。使用剩余部分来评估性能：测试数据

④ 第 4。用不同的组合重复 m 次

⑤ 第 5。取平均值来确定最终的估计器

⑥ 通常使用10倍交叉验证

⑹ 样本外根MSPE计算

① 使用样本内数据训练的模型来评估不同样本上的性能

② 这个不同的样本称为验证集

3。技术 1. 岭回归

⑴ 概述

① 定义：惩罚平方值以控制模型复杂性。惩罚是权重的函数

② 也称为L2正则化

③ 1962年由A. E. Hoerl提出，解决回归矩阵的不可逆性

④【高斯分布的MAP学习】(https://jb243.github.io/pages/1768)

⑵ 目标函数

① 简单形式：岭估计器最小化

② PRSS（惩罚残差平方和）

⑶ 情况1. 回归变量不相关

① 简单形式：可以相对于 λ = 0 时找到的 β̂j 表示

② 矩阵形式：岭目标函数是凸的，可以通过微分轻松求解

⑷ 情况 2. 回归变量是相关的：必须检查 MSPE 与 λ_Ridge 的关系

① 偏差-方差权衡

图 2. 一般偏差-方差权衡

② λ_Ridge 通过交叉验证计算

③ λ_Ridge = 0 最适合样本内但不适用于样本外

图 3. 根据 λ_Ridge 计算 MSPE 的平方根

⑸ 岭回归解的特点

① 即使没有可逆的 XtX，λ 也允许计算逆

② 每个 λ 给出一个估计量

③ λ → 0：过拟合。达到线性回归 (OLS) 解

④ λ → ∞：欠拟合。系数 w 接近 0（∵ 对大系数的惩罚）

⑹ 应用1. 软序约束：最终变成

这样的不等式约束≤ C 进入等式约束

⑺ 应用2. 体重下降：治疗

像误差项一样并应用标准神经网络更新方法

① 标准梯度下降：w t - η∇Ein(w t)

⑻ 应用3. MAP（最大后验）

① 贝叶斯法则

② 一般 MAP 学习：回想贝叶斯规则中“P(D) = 常数”的情况

○ 假设正态分布：假设 w 除 w0 外与先验无关且很小

③岭回归中的MAP学习

⑼ 应用4. 与其他方法的比较

图 4. 预测性能比较

## 4。技术2. LASSO回归

⑴ 概述

① 定义：惩罚绝对值以控制模型复杂性。惩罚是权重的函数

② 也称为L1正则化

③【拉普拉斯先验的MAP学习】(https://jb243.github.io/pages/1768)

图 5. 拉普拉斯概率密度函数

⑵ 目标函数

① 简单形式：LASSO 估计器最小化

② 矩阵形式

⑶ 目标函数的求解：计算关于λ_LASSO的MSPE

图 6. 根据 λ_LASSO 的 MSPE 平方根

① λ_LASSO 通过交叉验证计算

② 与 Ridge 不同，没有通用闭式解

⑷ 特点

① 当模型具有稀疏性时有用：即许多系数为 0

② λ → 0：达到线性回归（OLS）解。样本内最好，但样本外较差

③ λ → ∞：系数 w 接近 0（∵ 对大系数的惩罚）

⑸ 应用1. 稀疏性原理

①拉普拉斯先验将不重要的变量精确设置为0：有效去除不重要的变量

图 7. 系数随收缩因子的变化

② 稀疏原理图

图8. 对LASSO回归稀疏性的直观理解

○ 红色椭圆连接相等 MSE（均方误差）的点

○ 蓝色区域连接等罚点

○ 随着 λ 的增大，惩罚增大，LASSO 和 Ridge 都会收缩

○ 在 Ridge 中，最优值出现在红色椭圆接触圆形蓝色区域的点：如果不是，解更接近原点，惩罚更小

○ 在 LASSO 中，如果蓝色区域较小，则最优解出现在某些系数为 0 的点：在这个尖锐点，沿边缘的移动退出红色椭圆（→ 较高的 MSE）

○ 与 Ridge 不同，LASSO 会导致稀疏性

⑹ 应用2. 与其他方法的比较

图 9. 预测性能比较

5。技术3. 弹性网

⑴ LASSO 和 Ridge 的线性组合。添加权重的绝对值和和平方值作为惩罚项

⑵ 参数1. Alpha（α）：控制L1和L2惩罚的混合比例。 α = 1 为 LASSO，α = 0 为 Ridge

⑶ 参数2. Lambda (λ)：控制惩罚的强度。乘以整个正则化项

6。技术 4. SelectFromModel

⑴ 一种基于【决策树】(https://jb243.github.io/pages/2161)算法选择变量的方法

输入：2019.12.08 12:35

编辑：2024.09.27 08:47

6768

第 18 讲。回归分析中的正则化（正则化、惩罚）

1.概述

2. MSPE

3。技术 1. 岭回归

5。技术3. 弹性网

6。技术 4. SelectFromModel

results matching ""

No results matching ""