第 18 讲。回归分析中的正则化(正则化、惩罚)
推荐帖子:【统计】【统计目录】(https://jb243.github.io/pages/1641)
1. 概述
2. MSPE
3. 技术1. 岭回归
4.技术 2. LASSO 回归
5.技术3. 弹性网
6。技术 4. SelectFromModel
1.概述
⑴ 回归分析中的问题:主要在回归变量较多时突出
①【多重共线性】(https://jb243.github.io/pages/1632)
② 欠拟合:模型缺乏灵活性,无法正确学习给定数据
③ 过拟合
○ 在 OLS 估计等标准回归中,模型会学习样本中的噪声,从而降低预测能力
○ 在训练过程中学习偏差实际上可以提高预测能力
⑵ 正则化(惩罚)
① 解决回归问题,在参数中添加惩罚项
② 注意,不应用正则化会导致过拟合,过多会导致欠拟合
③ 必须对数据进行标准化处理
○ 值较大的特征系数较大,可能会受到过度惩罚并收缩太多
○ 相反,具有较小值的特征具有较小的系数,并且可能受到较少的惩罚
④ 有时包括使用验证集优化参数(例如惩罚项权重)的过程
⑤ 正规化预期效果
图1. 正则化的预期结果
2. MSPE
⑴ 概述
①误差:假设e为平方误差,h为假设,f为真函数
② 类型1. 样本内误差:也称为训练误差。类似于偏见
③ 类型2. 样本外误差:也称为泛化误差,MSPE。类似于方差
○ 步骤 1. 使用给定样本构建预测模型
○ 步骤 2. 使用样本外部的数据(XOOS、YOOS)比较预测值和实际值
○ 注:ŷ 指使用样本内数据获得的预测
④(参考)【偏差-方差权衡】(https://jb243.github.io/pages/1630)
⑤ 最佳预测量:称为预言机。 E(YOOS XOOS)
○ MSPE中的预测误差如下
○ 根本错误:无法改进。 YOOS - E(YOOS XOOS)
○ 估计误差:Ŷ(XOOS) - E(YOOS XOOS)
⑵ MSPE估计器
① 如果 β 已知,则 MSPE = σu2 成立
② k/n可能很大
⑶ 假设
① 假设1. 无多重共线性
② 假设2.(XOOS、YOOS)是从同一人群中随机抽取的
⑷ 变换
① 标准化
○ (Xi1,…,Xki,Yi*)是从原始样本中提取的值
○ 定义 Xji 为 (Xji* - μXj) / σXj
○ 因变量变换为 Yσj ← Yσj - μY*
② 收缩原理
○ 可以降低MSPE
○ 出现偏差:权衡
○ 最著名的例子是 James-Stein 估计器
⑸ 样本内MSPE计算:常用m倍交叉验证> ① 第一第一。将给定样本分成 m 部分
② 第二第二。使用 m-1 部分来估计参数:训练数据
③ 第三第。使用剩余部分来评估性能:测试数据
④ 第 4。用不同的组合重复 m 次
⑤ 第 5。取平均值来确定最终的估计器
⑥ 通常使用10倍交叉验证
⑹ 样本外根MSPE计算
① 使用样本内数据训练的模型来评估不同样本上的性能
② 这个不同的样本称为验证集
3。技术 1. 岭回归
⑴ 概述
① 定义:惩罚平方值以控制模型复杂性。惩罚是权重的函数
② 也称为L2正则化
③ 1962年由A. E. Hoerl提出,解决回归矩阵的不可逆性
④【高斯分布的MAP学习】(https://jb243.github.io/pages/1768)
⑵ 目标函数
① 简单形式:岭估计器最小化
② PRSS(惩罚残差平方和)
⑶ 情况1. 回归变量不相关
① 简单形式:可以相对于 λ = 0 时找到的 β̂j 表示
② 矩阵形式:岭目标函数是凸的,可以通过微分轻松求解
⑷ 情况 2. 回归变量是相关的:必须检查 MSPE 与 λRidge 的关系
① 偏差-方差权衡
图 2. 一般偏差-方差权衡
② λRidge 通过交叉验证计算
③ λRidge = 0 最适合样本内但不适用于样本外
图 3. 根据 λRidge 计算 MSPE 的平方根
⑸ 岭回归解的特点
① 即使没有可逆的 XtX,λ 也允许计算逆
② 每个 λ 给出一个估计量
③ λ → 0:过拟合。达到线性回归 (OLS) 解
④ λ → ∞:欠拟合。系数 w 接近 0(∵ 对大系数的惩罚)
| ⑹ 应用1. 软序约束:最终变成 | w | 这样的不等式约束≤ C 进入等式约束 |
| ⑺ 应用2. 体重下降:治疗 | w | 像误差项一样并应用标准神经网络更新方法 |
① 标准梯度下降:w t - η∇Ein(w t)
⑻ 应用3. MAP(最大后验)
① 贝叶斯法则
② 一般 MAP 学习:回想贝叶斯规则中“P(D) = 常数”的情况
○ 假设正态分布:假设 w 除 w0 外与先验无关且很小
③岭回归中的MAP学习
⑼ 应用4. 与其他方法的比较
图 4. 预测性能比较
## 4。技术2. LASSO回归
⑴ 概述
① 定义:惩罚绝对值以控制模型复杂性。惩罚是权重的函数
② 也称为L1正则化
③【拉普拉斯先验的MAP学习】(https://jb243.github.io/pages/1768)
图 5. 拉普拉斯概率密度函数
⑵ 目标函数
① 简单形式:LASSO 估计器最小化
② 矩阵形式
⑶ 目标函数的求解:计算关于λLASSO的MSPE
图 6. 根据 λLASSO 的 MSPE 平方根
① λLASSO 通过交叉验证计算
② 与 Ridge 不同,没有通用闭式解
⑷ 特点
① 当模型具有稀疏性时有用:即许多系数为 0
② λ → 0:达到线性回归(OLS)解。样本内最好,但样本外较差
③ λ → ∞:系数 w 接近 0(∵ 对大系数的惩罚)
⑸ 应用1. 稀疏性原理
①拉普拉斯先验将不重要的变量精确设置为0:有效去除不重要的变量
图 7. 系数随收缩因子的变化
② 稀疏原理图
图8. 对LASSO回归稀疏性的直观理解
○ 红色椭圆连接相等 MSE(均方误差)的点
○ 蓝色区域连接等罚点
○ 随着 λ 的增大,惩罚增大,LASSO 和 Ridge 都会收缩
○ 在 Ridge 中,最优值出现在红色椭圆接触圆形蓝色区域的点:如果不是,解更接近原点,惩罚更小
○ 在 LASSO 中,如果蓝色区域较小,则最优解出现在某些系数为 0 的点:在这个尖锐点,沿边缘的移动退出红色椭圆(→ 较高的 MSE)
○ 与 Ridge 不同,LASSO 会导致稀疏性
⑹ 应用2. 与其他方法的比较
图 9. 预测性能比较
5。技术3. 弹性网
⑴ LASSO 和 Ridge 的线性组合。添加权重的绝对值和和平方值作为惩罚项
⑵ 参数1. Alpha(α):控制L1和L2惩罚的混合比例。 α = 1 为 LASSO,α = 0 为 Ridge
⑶ 参数2. Lambda (λ):控制惩罚的强度。乘以整个正则化项
6。技术 4. SelectFromModel
⑴ 一种基于【决策树】(https://jb243.github.io/pages/2161)算法选择变量的方法
输入:2019.12.08 12:35
编辑:2024.09.27 08:47