第 14 章. 统计测试
高级类别:【统计】【统计概述】(https://jb243.github.io/pages/1641)
1. 术语
2. 内曼-皮尔逊引理
3. 广义似然比检验
4. p 值
5. 统计测试类型
1.术语
⑴测试
①定义:验证假设是否具有统计显着性
○ 应用1.随机化检查(平衡测试):验证随机抽样是否顺利
○ 应用 2. 因果效应: 验证特定治疗是否会产生重大变化
②检验统计量:在一维上总结状态空间的n维信息,并用其进行统计检验
○ 示例: Z、T、χ2、F 等
○ 当关键区域的大小恒定时,能够在一维上进行概括很重要
③参数测试
○ 定义: 基于测试统计的测试参数
○ 一般来说,假设总体的分布是正态分布:中心极限定理用于这个假设
○ 实际上,在没有上述假设的情况下对任何样本进行参数测试都不是大问题
④ 非参数检验
○ 定义:通过检验统计检验非参数特征的方法。
○ 无法指定总体分布时使用(无分布法)。
○ 相比参数化方法,统计量的计算更简单,更直观易懂。
○ 受异常值影响较小。
○ 检验统计数据的可靠性往往不足。
⑵假设
①原假设(H0):与现有条件或先前声称的情况相比没有变化或差异的假设
②备择假设(H1):拒绝零假设时接受的假设
○ 也称为研究假设。
③特征:对于参数θ,
○ H0: θ0 ={θ0, θ0’, θ0’’, ···}
○ H1: θ1 ={θ1, θ1’, θ1’’, ···}
○ 特征 1. p(θ ∈ θ0 或 θ ∈ θ1) = 1
○ 特征2. p(θ ∈ θ0 且 θ ∈ θ1) = 0
④分类
○ 简单假设: 在 θ ={θ0}、θ ={θ1} 的情况下,···
○ 复合假设: 如果假设不是简单假设
○ 示例:H0: θ ≤ θ0、H1: θ > θ0 的假设为复合假设
⑶ 临界区介绍
①状态空间=临界区+可接受区
○ 拒绝区域:导致拒绝原假设的检验统计量范围。
○ 样本 ε 临界区: H0 被拒绝
○样本∉临界区: H0不被拒绝
②幂函数πC(θ):当临界区为C、参数为θ时,样本包含在临界区的概率
![]()
③幂函数示例
○ p(x) = 4x3 / θ4 I{0 < x < θ}
○ C ={x x≤0.5,x>1}
○ θ≤0.5
πC(θ) = 1
○ 0.5<θ≤1
πC(θ) = ∫ p(x) dx (假设 x ∈ [0, 0.5] )= 1 / 16θ4
○ 1 < θ
πC(θ) = ∫ p(x) dx (假设 x ∈ [0, 0.5] ∪[1, θ] )= 1 - 15 / 16θ4
④ Size of Critical Region(Size of test):原假设成立时样本被包含在临界区的概率的最大值
![]()
⑤功效:当备择假设成立时,样本被纳入临界区的概率。这也是当备择假设为真时,原假设被拒绝的概率
![]()
⑥错误:做出错误的统计结论
○ 理想临界区
![]()
○ Ⅰ 类错误(误报)
○ 定义:当零假设为真时拒绝零假设的错误
○ 条件:当原假设为简单假设时定义
○ Ⅰ型错误的概率(α) = 临界区域的大小
○ 显着性水平: 10%、5%、1% 等
○ 置信度: 90%、95%、99% 等
○ Ⅱ型错误(假阴性)
○ 定义:当备择假设为真时采用原假设的误差
○ 条件:当备择假设为简单假设时定义
○ 发生Ⅱ类错误的概率(β) = 1 - 幂
○ α 和 β 之间的权衡
![]()
图1. Ⅰ型误差(α)和Ⅱ型误差(β)之间的权衡
○ 临界区域显示为大于特定值或小于特定值的区间(∵ Neyman-Pearson 引理)
○ α 和 β 都不能减少
⑷ 临界区比较
① 标准:当临界区域大小相同时,功率应该更大
② 更强大的测试:针对特定的 θ1 ∈ θ1 和两个临界区域 C1、C2,
![]()
③ 最有力的测试:对于特定的 θ1 ∈ θ1 和任意临界区域 C,
![]()
④ 一致最有力的测试:对于任何 θ ∈ θ1 和任何临界区域 C,
![]()
2.内曼-皮尔逊引理
⑴理念
①前提: H0: θ = θ0, H1: θ = θ1(简单假设)
②问题:当临界区大小一定时,求一个使功率最大化的临界区
③推测:来自一个状态空间的样本被一一包含在临界区C中
○ 当包含样本 x C 时,p(x, θ0) 和 p(x, θ1) 都会增加
○ p(x, θ0): 一种成本。 p(x, θ0) 的增加会增加临界区域的大小 » ○ p(x, θ1): 一种好处。 p(x, θ1) 的增加会增加功效
④结论
○ 排队策略: 以更快的顺序在关键区域中包含更多 p(x, θ1) ÷ p(x, θ0) 的样本 x 是有利的
○ 阵容策略制定的临界区域,C ={x | p(x, θ1) ÷ p(x, θ0) ≥ k},是一致最强大测试的关键区域
⑵ 引理
①前提:H0、H1是简单假设
② 陈述:对于任何 k ∈ ℝ,如果我们采用以下临界区域,它将是一致最有力测试的临界区域
![]()
○ ℒ:似然函数
○ 似然比检验(LR 检验): 类似 λ(x) ≥ k 的检验
○ 临界区的确定:要知道临界区的具体形式,需要给出临界区的大小
○ 每个满足 λ(x) ≥ k 的 x 都包含在临界区域 C* 中
○ 每个满足 λ(x) < k 的 x 都包含在临界区 C* 的补集中
③申请
○ 由于只有 p(x, θ1) ÷ p(x, θ0) 的阶数很重要,因此允许使用单调递增函数 f(·) 进行以下转换
![]()
○ 与 θ0、θ1、n 等相关的术语很容易被删除
○点:只要保证k’存在,就允许修改临界区
○ 临界区的确定:要知道临界区的确切形式,应给出临界区的大小
⑶证明
①假设:C*和C大小相同
![]()
② C*的定义
![]()
③结论: C*是一个关键区域,测试能力一致最强
![]()
⑷ 示例1.
① X1, ···, Xn ~ 伯努利(θ)
![]()
② H0: θ = θ0, H1: θ = θ1 > θ0
③似然比检验
![]()
④ Z 检验(置信度:α)
○ θ1 > θ0 :单尾检验
![]()
○ θ1 < θ0: 单尾检验
![]()
» ○ 一致最强测试的临界区域不存在,因为最强大测试的临界区域的大小取决于 θ0 是否大于 θ1
⑸ 示例2.
① X1, ···, Xn ~ N(μ, 12)
![]()
② H0: μ = μ0, H1: μ = μ1 > μ0
③似然比检验
![]()
④ Z 检验:单尾检验(置信度:α)
![]()
⑹ 泛化 1. 当临界区不依赖于 θ1 的具体值时,无论 H1 是否为复合假设,临界区的形式都是恒定的
① X1, ···, Xn ~ 伯努利(θ)
② H0: θ = θ0, H1: θ > θ0
⑺ 泛化2. 在泛化1中,当备择假设是包含θ0的复合假设且当θ = θ0时α为最大值时,临界区的形式是恒定的
① X1, ···, Xn ~ 伯努利(θ)
② H0: θ < θ0, H1: θ > θ0
3.广义似然比检验
⑴定义
① Neyman-Pearson 引理的局限性:一般来说,原假设和备择假设应该是简单假设
②GLR检验(广义似然比检验)
![]()
③ max p(x, θ) 利用【最大似然法】(https://jb243.github.io/pages/1630) (ML)
④ 该方法已被证明可以设置统计上不错的临界区域
⑵ 例1. Xi ~ N(μ, σ2), σ2已知
① H0: μ = μ0, H1: μ ≠ μ0
②广义似然比检验
![]()
③ τ-test: 单尾检验(置信度:α)
![]()
④ Z检验:双尾检验(置信度:α)
![]()
⑤证明即使Xi不服从正态分布,也可以近似应用上述方法
⑶ 例2. Xi ~ N(μ, σ2), σ2 未知
① H0: μ = μ0, H1: μ ≠ μ0
②广义似然比检验
![]()
③ F检验: 单尾检验(置信度:α)
![]()
④ T 检验: 双\尾检验(置信度: α)
![]()
⑷ 示例 3. Xi ~ N(μ, σ2), σ2 未知
① H0: μ = μ0, H1: μ > μ0
②广义似然比检验
![]()
③关键假设
○ Xavg ≥ μ0 比 Xavg < μ0 的似然比更高,因此前者在阵容策略中的优先级高于后者
○ 由于显着性水平最多仅为 0.025、0.05 和 0.10,因此足以认为 Xavg ≥ μ0 具有全部可能情况的一半
④ T检验:单尾检验(置信度:α)
![]()
⑤ H1: 即使 μ < μ0 也应用相同的逻辑
⑸ 示例 4. Xi ~ N(μ, σ2), μ 未知
① H0: σ2 = σ02, H1: σ2 ≠ σ02
②广义似然比检验
![]()
③设定临界区域
○ f(τ) 是一个向下凸函数,最小值位于 τ = n
○ 条件 1. P(τ ≥ k’ | H0) + P(τ ≤ k’’ | H0) = α
○ 条件 2. f(k’) = f(k’’)
![]()
④ τ-test: 双尾检验(置信度: α)
○ 需要数值分析来设定理想的临界区域
○ 在实践中,使用更简单的关键区域
![]()
⑹ 示例5.特殊似然比检验
①定义
○ 在 Xi ~ N(μ, σ2) 和 σ2 已知的情况下,2 ln λ ~ χ2(1)
○ 威尔克斯现象:如果样本量 n 足够大,则对于参数数量,即 k,可以从数学上证明:
② τ-test:单尾检验(置信度:α)
③ 证明
④ 示例
○ 示例 1. 给定 X1, ⋯, Xn ∼ Poisson(λ) 和原假设 H0: λ = λ0,H1: λ ≠ λ0,找到显着性水平 α 的临界区域。
○ 示例 2. 令 y1, ⋯, y5 服从参数 θ = (p1, ⋯, p5) 的多项分布,并定义 L(θ) = p1y1 ⋯ p5y5。给定原假设 H0:p1 = p2 = p3、p4 = p5 和备择假设 H1,找到显着性水平 α 的拒绝区域。
⑤ 补充品
○ 一些统计学家仅将这些测试称为似然比测试(LR 测试)
○ 一些统计学家定义 -2 ln λ = 2 ln ℒ(H1) - 2 ln ℒ(H0))
4. p值
⑴ 定义:当原假设成立时,比给定样本出现更多极值的概率
① 另一个定义:原假设为真的概率
② 仅当检验统计量包含在临界区域内时拒绝以及仅当 p 值小于 α 时拒绝是充要条件
③严格定义
⑵计算:θ*为测量值
①右侧检验: p值 = P(θ ≥ θ*)
②左侧测试: p值 = P(θ ≤ θ*)
③ 关于μ的对称分布: p值 = P(|θ - μ| ≥ |θ* - μ|)
④ 卡方分布:如果 θ* 大于中位数,则 p 值 = P(θ ≥ θ*)。如果 θ* 小于中位数,则 p 值 = P(θ ≤ θ*)
⑶功效和p值
① 经典统计学的主要问题是求分布和幂递增
②严格含义:高功效是指当α为常数时,如果备择假设为真,则拒绝原假设的概率较高
③ 表示 α 是常数
○ 含义是为从各种统计技术获得的每个分布定义一条恒定的马其诺线
○ 表示除了给定样本之外的许多其他情况都被视为原假设为真,即使它们不一定表明真实的原假设
④增加1-β的意义:在各种统计技术中使马奇诺防线变得更加极端的意义
⑤ 直观意义: 较高的功效意味着当 α 恒定时,我们将使用显示较小 p 值的统计技术
⑥ 例1. 对于同一样本,使用F统计量比t统计量具有更小的p值→更高的功效
⑦ 示例2. t分布随着自由度的增加而变窄→幂增加
⑧ 不同的统计技术具有不同的功效:意味着对于相同的统计数据,统计结论可能不同
⑷ 示例:相关系数和p值。
① H0:X和Y不相关
② p值的含义:从不相关总体中抽取的样本组的相关系数大于给定相关系数的概率
③通过正态分布计算值的假设
○ 随机抽样数据
○ 二元正态分布:两个变量 X 和 Y 服从正态分布
○ 线性关系: 二阶或三阶关系不适合
○ 不满足以上三个条件,必须通过非参数检验计算p值 ⑸ 多重测试问题
① 概述
○ 假设 p 值在原假设 H0 下服从均匀分布。
○ 证明:在原假设下,令S 的CDF 为F0。如果 F0 是非减函数,那么…
○ 问题定义:假设我们测试 1,000 个假设,并拒绝每个假设的原假设,其 p 值小于 α = 0.05。在这种情况下,我们预计有多少零假设会被错误地拒绝?答案约为 50 (∵ 1000 × 0.05 = 50)。因此,我们不能假设所有被拒绝的假设都是显着的。
○ 关键问题:进行多项统计测试本质上会增加得出不准确结论的可能性。
○ 示例:当从由多个基因组成的测序数据中识别差异表达基因 (DEG) 时,此问题尤其重要。
② 解决方案 1: 控制 Family-Wise 错误率 (FWER)
○ 定义:所有假设中至少得出一个错误结论的概率。
○ 例如,5% FWER 表示即使有一个错误结论的概率也小于或等于 5%。这种方法非常保守,可以最大限度地减少误报。
○ FWER 有时被批评为导致低功耗,导致出现许多 II 类错误。
○ 方法 1. Sidak 校正:调整 alpha 阈值而不是 p 值。当 p 值独立时使用。
○ d: 统计检验次数
○ 方法 2. Bonferroni 校正:直接调整各个 p 值。即使 p 值不独立也可以应用。非常保守。
○ d: 统计检验次数
○ 注意:如果调整后的 p 值超过 1,则强制设置为 1。
○ α 处的 FWER 证明
○ 令统计检验的数量为 m,并假设每个检验是独立的(此假设对于并集限制条件是必需的)。
○ I0 是一个固定但未知的集合,推测它主要由具有高 p 值的原假设组成。
○ 方法 3. Holm(降压)程序
○ 步骤 1. 对 p 值进行排序,获得 P(1) ≤ ··· ≤ P(m)。
○ 步骤 2. 让 R 表示最小的 r ≥ 0,使得 P(r+1) > α / (m-r)。
○ 步骤 3. 如果 R > 0,则拒绝 H(1),…,H(R),其中 H(i) 与 P(i) 相关联。
○ α 处的 FWER 证明
○ 令统计检验的数量为 m,并假设每个检验是独立的(此假设对于并集限制条件是必需的)。»» ○ I0 是一个固定但未知的集合,推测它主要由具有高 p 值的原假设组成。
○ 在相同的α下,Holm比Bonferroni更强大。
○ 方法 4. Hochberg(升级)程序
○ 步骤 1. 对 p 值进行排序,获得 P(1) ≤ ⋯ ≤ P(m)。
○ 步骤 2. 让 R 表示最大的 r ≥ 0,使得 P(r) ≤ α / (m + 1 - r)。
○ 步骤 3. 如果 R > 0,则拒绝 H(1), ⋯, H(R),其中 H(i) 与 P(i) 相关联。
○ 直观理解显着性水平 α 下的 FWER 控制
○ 假设统计检验次数为 m,且每次检验都是独立的(独立性条件必需)
○ 令 I0 为固定但未知的集合,假设主要包括具有大 p 值的零假设
○ 注意:不等式 m - j0 + 1 ≥ m0 不一定成立,因此以下推导仅供参考
○ 当使用相同的显着性水平α时,Hochberg比Holm更强大
○ 直觉:Holm 使用“for all”条件,而 Hochberg 使用“for some”条件
○ 方法 5. Tukey-Kramer 诚实显着性差异(极差检验)
○ 此程序适用于在多样本情况下执行所有成对比较。
○ 零假设: Hjk : μj = μk
○ J 个样本 (Yij : i = 1, ···, nj), j = 1, ···, J
○ N = n1 + ··· + nJ
○ μj:j 组的总体平均值
○ 统计量:在 α 级,Tukey-Kramer 拒绝 Hjk 如果
○ 理论:当样本独立、正态、方差相同,且样本量相等时,Tukey-Kramer 将 FWER 精确控制在 α 水平。
③ 解决方案2:控制错误发现率(FDR)
○ 概述
○ 定义:将拒绝零假设的假设中错误结论(错误发现)的比例限制在一定水平。
○ FWER 控制意味着 FDR 控制(处于同一级别 α)。
○ 通过考虑 H0 和 H1 下的 p 值分布,可以执行不太保守的统计检验。
○ 方法 1. Benjamini–Hochberg (B&H):适用于检验之间的相关性很简单的情况。»> ○ 步骤 1. 对 p 值进行排序,获得 P(1) ≤ ⋯ ≤ P(m)。
○ 步骤 2. 让 R 表示最大的 r,使得 P(r) ≤ rα / m。
○ 步骤 3. 如果 R > 0,则拒绝 H(1), ⋯, H(R),其中 H(i) 与 P(i) 相关联。
○ 与 Hotchberg 过程类似,这是一个逐步过程(从最不显着的 p 值开始),但阈值有很大不同。
○ Hotchberg 将 P(j) 与 α / (m - j + 1) 进行比较。
○ Benjamini-Hochberg 将 P(j) 与 jα / m 进行比较。
○ 直观理解显着性水平 α 下的 FDR 证明
○ 假设统计检验之间的独立性
○ 调整后的 p 值
○ d:统计检验次数
○ 排名:p 值的排序顺序
○ 注意:如果调整后的 p 值超过 1,则强制设置为 1。
○ 等级越低(例如,等级 = 1),p 值应越低。如果不满足此条件,则有一个调整步骤。
○ 示例:对于显着性水平 α、总检验 m 和第 i 个最小 p 值 p(i)
| 基因 | p-值 | 排名 | 初始调整 p-val | 最终调整 p-val | |
|---|---|---|---|---|---|
| 一个 | 0.039 | 0.039 3 | 0.039 × (25/3) = 0.325 | 0.21 | 0.21 |
| 乙 | 0.001 | 0.001 1 | 0.001 × (25/1) = 0.025 | 0.025 | 0.025 |
| C | 0.041 | 0.041 4 | 0.041 × (25/4) = 0.256 | 0.21 | 0.21 |
| d | 0.042 | 0.042 5 | 0.042 × (25/5) = 0.21 | 0.21 | 0.21 |
| 电子 | 0.008 | 0.008 2 | 0.008 × (25/2) = 0.1 | 0.1 | 0.1 |
| … | … | … | … | … |
表 1. 25 个基因的 B&H 测试示例
○ 方法 2. Benjamini–Yekutieli (B&Y):适用于测试之间具有复杂相关性的情况。
○ 无论检验是否独立,Benjamini-Yekutieli 都将 FDR 控制在 α。
○ 调整后的 p 值
○ d:统计检验次数
○ 排名:p 值的排序顺序
○ Σi=1 至 d i/1:调整常数,通过考虑测试相关性更保守地控制 FDR。
○ 注意:如果调整后的 p 值超过 1,则强制设置为 1。
④ 调整后的 p 值:引入以在不同的校正方法中应用相同的显着性水平 α。
5. 统计检验的类型
⑴ 概述
①【统计测试总结】(https://jb243.github.io/pages/1662)
② 【简单测试】(https://jb243.github.io/pages/1634)
⑵ 类型1. 一个样本分类
① 汇总统计:表
② 可视化:条形图(=条形图)、饼图
③ 1-1. 卡方拟合优度检验> ④ 1-2. 【似然比检验】(https://jb243.github.io/pages/614)
⑤ 1-3. 运行测试
⑥ 1-4. 模拟:蒙特卡罗模拟(例如排列)
⑶ 类型2. 多样本分类
① 汇总统计:列联表
② 可视化:分段条形图、并排条形图
③ 2-1. 卡方拟合优度检验
④ 2-2. 【卡方独立性检验】(https://jb243.github.io/pages/1727#2-chi-square-test-of-independence)
⑤ 2-3. 【Fisher 精确检验(超几何检验)】(https://jb243.github.io/pages/1690)
⑥ 2-4. 模拟:蒙特卡洛模拟、参数引导
⑷ 类型3. 一个样本数值
① 汇总统计:位置、规模
○ 位置:平均值、中位数、分位数等。
○ 尺度:标准差、中值绝对差等。
② 可视化:箱线图、直方图、Q-Q 图(正态性检查)
③ 3-1. T检验
④ 3-2. 卡方拟合优度检验:使用数据分箱
⑤ 3-3. 柯尔莫哥洛夫-斯米尔诺夫测试
⑥ 3-4. 模拟:蒙特卡罗模拟、非参数引导、参数引导
⑸ 类型4. 两个样本数值
① 可视化:并排箱线图、Q-Q 图(正态性检查)
② 4-1. 配对 t 检验:单样本。参数化
③ 4-2. 等方差的非配对 t 检验:两个样本。参数化
④ 4-3. 具有不等方差的不配对 t 检验(Welch t 检验):两个样本。参数化
⑤ 4-4. Wilcoxon 签名秩检验:单样本。非参数化
⑥ 4-5. Wilcoxon 秩和检验:两个样本。非参数化
⑦ 4-6. McNemar 检验:单样本
⑧ 4-7. Kolmogorov-Smirnov 二样本检验:二样本。非参数化
⑨ 4-8. 模拟:蒙特卡罗模拟(例如排列)、Bootstrap
⑹ 类型5. 多样本数值
① 可视化:并排箱线图
② 5-1. 单向方差分析:参数
○ 假设:独立同分布、正态性、同方差(但不适用于 Welch ANOVA F 检验)
○ 可视化:残差图(同方差性检查)、Q-Q 图(正态性检查)
③ 5-2. Tukey 诚实显着性差异
○ 假设:正态性、同方差(但不适用于 Welch ANOVA F 检验)
④ 5-3. Kruskal-Wallis 测试:非参数
⑤ 5-4. Friedman测试:重复测量
⑥ 5-5. Cochrane 问题:重复措施
⑦ 5-6. 双向方差分析
○ 可视化:并排箱线图、残差图(同方差检查)、交互图
⑧ 5-7. 排列测试
⑺ 类型 6. 双变量配对数值
① 汇总统计:相关系数
② 可视化:散点图
③ 6-1. 皮尔逊相关系数
④ 6-2. Spearman 相关性
⑤ 6-3. Kendall tau 相关性
⑦ 6-5. 柯尔莫哥洛夫-斯米尔诺夫独立性检验
⑧ 6-6. 蒙特卡罗模拟(例如排列)
⑻ 类型 7. 简单回归
① 可视化:散点图
② 7-1. T检验
③ 7-2. 模拟:非参数引导、参数引导
⑼ 类型 8. 同方差检验> ① 8-1. Levene 测试
② 8-2. Bartlett 检验
⑽ 类型9. 正态性检验
① 9-1. 【Q-Q图】(https://jb243.github.io/pages/1742)
② 9-2. 夏皮罗-威尔克检验
③ 9-3. 柯尔莫哥洛夫-斯米尔诺夫测试
④** 9-4.** 达戈斯蒂诺-皮尔逊检验
输入:2019.06.19 14:52