Korean, Edit

第 18 讲。回归分析中的正则化(正则化、惩罚)

推荐帖子:【统计】【统计目录】(https://jb243.github.io/pages/1641)


1. 概述

2. MSPE

3. 技术1. 岭回归

4.技术 2. LASSO 回归

5.技术3. 弹性网

6。技术 4. SelectFromModel



1.概述

⑴ 回归分析中的问题:主要在回归变量较多时突出

①【多重共线性】(https://jb243.github.io/pages/1632)

欠拟合:模型缺乏灵活性,无法正确学习给定数据

过拟合

○ 在 OLS 估计等标准回归中,模型会学习样本中的噪声,从而降低预测能力

○ 在训练过程中学习偏差实际上可以提高预测能力

⑵ 正则化(惩罚)

① 解决回归问题,在参数中添加惩罚项

② 注意,不应用正则化会导致过拟合,过多会导致欠拟合

③ 必须对数据进行标准化处理

○ 值较大的特征系数较大,可能会受到过度惩罚并收缩太多

○ 相反,具有较小值的特征具有较小的系数,并且可能受到较少的惩罚

④ 有时包括使用验证集优化参数(例如惩罚项权重)的过程

⑤ 正规化预期效果


图片

图1. 正则化的预期结果



2. MSPE

⑴ 概述

①误差:假设e为平方误差,h为假设,f为真函数

类型1. 样本内误差:也称为训练误差。类似于偏见


图片


类型2. 样本外误差:也称为泛化误差,MSPE。类似于方差


图片


步骤 1. 使用给定样本构建预测模型

步骤 2. 使用样本外部的数据(XOOS、YOOS)比较预测值和实际值

○ 注:ŷ 指使用样本内数据获得的预测

④(参考)【偏差-方差权衡】(https://jb243.github.io/pages/1630)

⑤ 最佳预测量:称为预言机。 E(YOOS XOOS)

○ MSPE中的预测误差如下

○ 根本错误:无法改进。 YOOS - E(YOOS XOOS)
○ 估计误差:Ŷ(XOOS) - E(YOOS XOOS)

⑵ MSPE估计器


스크린샷 2025-06-08 11 24 06


① 如果 β 已知,则 MSPE = σu2 成立

② k/n可能很大

⑶ 假设

假设1. 无多重共线性

假设2.(XOOS、YOOS)是从同一人群中随机抽取的

⑷ 变换

① 标准化

○ (Xi1,…,Xki,Yi*)是从原始样本中提取的值

○ 定义 Xji 为 (Xji* - μXj) / σXj

○ 因变量变换为 Yσj ← Yσj - μY*

② 收缩原理


스크린샷 2025-06-08 11 24 44


○ 可以降低MSPE

○ 出现偏差:权衡

○ 最著名的例子是 James-Stein 估计器

⑸ 样本内MSPE计算:常用m倍交叉验证> ① 第一第一。将给定样本分成 m 部分

② 第二第二。使用 m-1 部分来估计参数:训练数据

③ 第三。使用剩余部分来评估性能:测试数据

④ 第 4。用不同的组合重复 m 次

⑤ 第 5。取平均值来确定最终的估计器


스크린샷 2025-06-08 11 25 30


⑥ 通常使用10倍交叉验证

⑹ 样本外根MSPE计算

① 使用样本内数据训练的模型来评估不同样本上的性能

② 这个不同的样本称为验证集



3。技术 1. 岭回归

⑴ 概述

① 定义:惩罚平方值以控制模型复杂性。惩罚是权重的函数

② 也称为L2正则化

③ 1962年由A. E. Hoerl提出,解决回归矩阵的不可逆性


스크린샷 2025-06-08 11 26 03


④【高斯分布的MAP学习】(https://jb243.github.io/pages/1768)

⑵ 目标函数

① 简单形式:岭估计器最小化


스크린샷 2025-12-16 오후 2 01 34


② PRSS(惩罚残差平方和)


스크린샷 2025-06-08 11 26 54


情况1. 回归变量不相关

① 简单形式:可以相对于 λ = 0 时找到的 β̂j 表示


스크린샷 2025-06-08 11 27 30


② 矩阵形式:岭目标函数是凸的,可以通过微分轻松求解


스크린샷 2025-06-08 11 27 51


情况 2. 回归变量是相关的:必须检查 MSPE 与 λRidge 的关系

① 偏差-方差权衡


图片

图 2. 一般偏差-方差权衡


② λRidge 通过交叉验证计算

③ λRidge = 0 最适合样本内但不适用于样本外


图片

图 3. 根据 λRidge 计算 MSPE 的平方根


⑸ 岭回归解的特点

① 即使没有可逆的 XtX,λ 也允许计算逆

② 每个 λ 给出一个估计量

③ λ → 0:过拟合。达到线性回归 (OLS) 解

④ λ → ∞:欠拟合。系数 w 接近 0( 对大系数的惩罚)

应用1. 软序约束:最终变成   w   这样的不等式约束≤ C 进入等式约束


图片


应用2. 体重下降:治疗   w   像误差项一样并应用标准神经网络更新方法

① 标准梯度下降:w t - η∇Ein(w t)


图片


应用3. MAP(最大后验)

① 贝叶斯法则


图片


② 一般 MAP 学习:回想贝叶斯规则中“P(D) = 常数”的情况


图片


○ 假设正态分布:假设 w 除 w0 外与先验无关且很小


图片


③岭回归中的MAP学习


图片


应用4. 与其他方法的比较


图片

图 4. 预测性能比较



## 4。技术2. LASSO回归

⑴ 概述

① 定义:惩罚绝对值以控制模型复杂性。惩罚是权重的函数

② 也称为L1正则化

③【拉普拉斯先验的MAP学习】(https://jb243.github.io/pages/1768)


图片

图 5. 拉普拉斯概率密度函数


⑵ 目标函数

① 简单形式:LASSO 估计器最小化


스크린샷 2025-12-16 오후 2 04 17


② 矩阵形式


图片


⑶ 目标函数的求解:计算关于λLASSO的MSPE


图片

图 6. 根据 λLASSO 的 MSPE 平方根


① λLASSO 通过交叉验证计算

② 与 Ridge 不同,没有通用闭式解

⑷ 特点

① 当模型具有稀疏性时有用:即许多系数为 0

② λ → 0:达到线性回归(OLS)解。样本内最好,但样本外较差

③ λ → ∞:系数 w 接近 0( 对大系数的惩罚)

应用1. 稀疏性原理

①拉普拉斯先验将不重要的变量精确设置为0:有效去除不重要的变量


图片

图 7. 系数随收缩因子的变化


稀疏原理图


图片

图8. 对LASSO回归稀疏性的直观理解


○ 红色椭圆连接相等 MSE(均方误差)的点

○ 蓝色区域连接等罚点

○ 随着 λ 的增大,惩罚增大,LASSO 和 Ridge 都会收缩

○ 在 Ridge 中,最优值出现在红色椭圆接触圆形蓝色区域的点:如果不是,解更接近原点,惩罚更小

○ 在 LASSO 中,如果蓝色区域较小,则最优解出现在某些系数为 0 的点:在这个尖锐点,沿边缘的移动退出红色椭圆(→ 较高的 MSE)

○ 与 Ridge 不同,LASSO 会导致稀疏性

应用2. 与其他方法的比较


图片

图 9. 预测性能比较



5。技术3. 弹性网

⑴ LASSO 和 Ridge 的线性组合。添加权重的绝对值和和平方值作为惩罚项


스크린샷 2025-06-08 11 32 22


参数1. Alpha(α):控制L1和L2惩罚的混合比例。 α = 1 为 LASSO,α = 0 为 Ridge

参数2. Lambda (λ):控制惩罚的强度。乘以整个正则化项



6。技术 4. SelectFromModel

⑴ 一种基于【决策树】(https://jb243.github.io/pages/2161)算法选择变量的方法



输入:2019.12.08 12:35

编辑:2024.09.27 08:47

results matching ""

    No results matching ""