Korean, Edit

第 14 章. 统计测试

高级类别:【统计】【统计概述】(https://jb243.github.io/pages/1641)


1. 术语

2. 内曼-皮尔逊引理

3. 广义似然比检验

4. p 值

5. 统计测试类型



1.术语 

⑴测试

①定义:验证假设是否具有统计显着性

应用1.随机化检查(平衡测试)验证随机抽样是否顺利 

应用 2. 因果效应 验证特定治疗是否会产生重大变化

②检验统计量在一维上总结状态空间的n维信息,并用其进行统计检验

○ 示例 Z、T、χ2、F 等 

○ 当关键区域的大小恒定时,能够在一维上进行概括很重要

③参数测试 

○ 定义 基于测试统计的测试参数

○ 一般来说,假设总体的分布是正态分布中心极限定理用于这个假设 

○ 实际上,在没有上述假设的情况下对任何样本进行参数测试都不是大问题

④ 非参数检验

○ 定义:通过检验统计检验非参数特征的方法。

○ 无法指定总体分布时使用(无分布法)。

○ 相比参数化方法,统计量的计算更简单,更直观易懂。

○ 受异常值影响较小。

○ 检验统计数据的可靠性往往不足。

⑵假设

①原假设(H0):与现有条件或先前声称的情况相比没有变化或差异的假设

②备择假设(H1):拒绝零假设时接受的假设 

○ 也称为研究假设。

③特征对于参数θ,

○ H0: θ0 ={θ0, θ0’, θ0’’, ···} 

○ H1: θ1 ={θ1, θ1’, θ1’’, ···}

特征 1. p(θ ∈ θ0 或 θ ∈ θ1) = 1

特征2. p(θ ∈ θ0 且 θ ∈ θ1) = 0

④分类

○ 简单假设 在 θ ={θ0}、θ ={θ1} 的情况下,···

○ 复合假设 如果假设不是简单假设

○ 示例:H0: θ ≤ θ0、H1: θ > θ0 的假设为复合假设

⑶ 临界区介绍 

①状态空间=临界区+可接受区

○ 拒绝区域:导致拒绝原假设的检验统计量范围。

○ 样本 ε 临界区: H0 被拒绝 

○样本∉临界区 H0不被拒绝 

②幂函数πC(θ)当临界区为C、参数为θ时,样本包含在临界区的概率


绘图


③幂函数示例 

○ p(x) = 4x3 / θ4 I{0 < x < θ}

○ C ={x x≤0.5,x>1}

○ θ≤0.5 


πC(θ) = 1


○ 0.5<θ≤1 


πC(θ) = ∫ p(x) dx (假设 x ∈ [0, 0.5] )= 1 / 16θ4


○ 1 < θ


πC(θ) = ∫ p(x) dx (假设 x ∈ [0, 0.5] ∪[1, θ] )= 1 - 15 / 16θ4


④ Size of Critical Region(Size of test)原假设成立时样本被包含在临界区的概率的最大值 


绘图


⑤功效:当备择假设成立时,样本被纳入临界区的概率。这也是当备择假设为真时,原假设被拒绝的概率 


绘图


⑥错误:做出错误的统计结论 

○ 理想临界区 


绘图


○ Ⅰ 类错误(误报)

○ 定义:当零假设为真时拒绝零假设的错误

○ 条件:当原假设为简单假设时定义

○ Ⅰ型错误的概率(α) = 临界区域的大小 

○ 显着性水平 10%、5%、1% 等 

○ 置信度 90%、95%、99% 等 

○ Ⅱ型错误(假阴性)

○ 定义:当备择假设为真时采用原假设的误差

○ 条件:当备择假设为简单假设时定义

○ 发生Ⅱ类错误的概率(β) = 1 - 幂

○ α 和 β 之间的权衡 


绘图

图1. Ⅰ型误差(α)和Ⅱ型误差(β)之间的权衡


○ 临界区域显示为大于特定值或小于特定值的区间( Neyman-Pearson 引理)

○ α 和 β 都不能减少

⑷ 临界区比较 

标准当临界区域大小相同时,功率应该更大

② 更强大的测试针对特定的 θ1 ∈ θ1 和两个临界区域 C1、C2, 


绘图


③ 最有力的测试:对于特定的 θ1 ∈ θ1 和任意临界区域 C,


绘图


④ 一致最有力的测试对于任何 θ ∈ θ1 和任何临界区域 C,


绘图



2.内曼-皮尔逊引理 

⑴理念

①前提: H0: θ = θ0, H1: θ = θ1(简单假设)

②问题:当临界区大小一定时,求一个使功率最大化的临界区

③推测来自一个状态空间的样本被一一包含在临界区C中 

○ 当包含样本 x C 时,p(x, θ0) 和 p(x, θ1) 都会增加

○ p(x, θ0): 一种成本。 p(x, θ0) 的增加会增加临界区域的大小 » ○ p(x, θ1): 一种好处。 p(x, θ1) 的增加会增加功效 

④结论 

○ 排队策略 以更快的顺序在关键区域中包含更多 p(x, θ1) ÷ p(x, θ0) 的样本 x 是有利的  

阵容策略制定的临界区域,C ={x | p(x, θ1) ÷ p(x, θ0) ≥ k},是一致最强大测试的关键区域

⑵ 引理 

①前提:H0、H1是简单假设

② 陈述:对于任何 k ∈ ℝ,如果我们采用以下临界区域,它将是一致最有力测试的临界区域 


绘图


○ ℒ:似然函数

○ 似然比检验(LR 检验) 类似 λ(x) ≥ k 的检验

○ 临界区的确定要知道临界区的具体形式,需要给出临界区的大小 

○ 每个满足 λ(x) ≥ k 的 x 都包含在临界区域 C* 中

○ 每个满足 λ(x) < k 的 x 都包含在临界区 C* 的补集中

③申请

○ 由于只有 p(x, θ1) ÷ p(x, θ0) 的阶数很重要,因此允许使用单调递增函数 f(·) 进行以下转换


绘图


○ 与 θ0、θ1、n 等相关的术语很容易被删除 

○点只要保证k’存在,就允许修改临界区  

○ 临界区的确定要知道临界区的确切形式,应给出临界区的大小 

⑶证明 

①假设:C*和C大小相同


绘图


② C*的定义 


绘图


③结论 C*是一个关键区域,测试能力一致最强


绘图


示例1.

① X1, ···, Xn ~ 伯努利(θ)


绘图


② H0: θ = θ0, H1: θ = θ1 > θ0

③似然比检验


绘图


④ Z 检验(置信度:α) 

○ θ1 > θ0 :单尾检验


绘图


○ θ1 < θ0: 单尾检验 


绘图


» ○ 一致最强测试的临界区域不存在,因为最强大测试的临界区域的大小取决于 θ0 是否大于 θ1  

示例2.

① X1, ···, Xn ~ N(μ, 12)


绘图


② H0: μ = μ0, H1: μ = μ1 > μ0

③似然比检验


绘图


④ Z 检验:单尾检验(置信度:α)


绘图


泛化 1. 当临界区不依赖于 θ1 的具体值时,无论 H1 是否为复合假设,临界区的形式都是恒定的

① X1, ···, Xn ~ 伯努利(θ)

② H0: θ = θ0, H1: θ > θ0

泛化2.泛化1中,当备择假设是包含θ0的复合假设且当θ = θ0时α为最大值时,临界区的形式是恒定的 

① X1, ···, Xn ~ 伯努利(θ)

② H0: θ < θ0, H1: θ > θ0



3.广义似然比检验  

⑴定义

① Neyman-Pearson 引理的局限性:一般来说,原假设和备择假设应该是简单假设

②GLR检验(广义似然比检验) 


绘图


③ max p(x, θ) 利用【最大似然法】(https://jb243.github.io/pages/1630) (ML) 

④ 该方法已被证明可以设置统计上不错的临界区域 

例1. Xi ~ N(μ, σ2), σ2已知 

① H0: μ = μ0, H1: μ ≠ μ0

②广义似然比检验  


绘图


③ τ-test: 单尾检验(置信度:α)


绘图


④ Z检验:双尾检验(置信度:α)


绘图


⑤证明即使Xi不服从正态分布,也可以近似应用上述方法 

例2. Xi ~ N(μ, σ2), σ2 未知 

① H0: μ = μ0, H1: μ ≠ μ0

②广义似然比检验  


绘图


③ F检验 单尾检验(置信度:α)


绘图


④ T 检验 \尾检验(置信度 α) 


绘图


示例 3. Xi ~ N(μ, σ2), σ2 未知 

① H0: μ = μ0, H1: μ > μ0

②广义似然比检验 


绘图


③关键假设 

○ Xavg ≥ μ0 比 Xavg < μ0 的似然比更高,因此前者在阵容策略中的优先级高于后者 

○ 由于显着性水平最多仅为 0.025、0.05 和 0.10,因此足以认为 Xavg ≥ μ0 具有全部可能情况的一半 

④ T检验:单尾检验(置信度:α)


绘图


⑤ H1: 即使 μ < μ0 也应用相同的逻辑 

示例 4. Xi ~ N(μ, σ2), μ 未知 

① H0: σ2 = σ02, H1: σ2 ≠ σ02

②广义似然比检验


绘图


③设定临界区域 

○ f(τ) 是一个向下凸函数,最小值位于 τ = n

条件 1. P(τ ≥ k’ | H0) + P(τ ≤ k’’ | H0) = α 

条件 2. f(k’) = f(k’’)


绘图


④ τ-test: 双尾检验(置信度: α)

○ 需要数值分析来设定理想的临界区域

○ 在实践中,使用更简单的关键区域


绘图


示例5.特殊似然比检验

①定义

○ 在 Xi ~ N(μ, σ2) 和 σ2 已知的情况下,2 ln λ ~ χ2(1) 

威尔克斯现象:如果样本量 n 足够大,则对于参数数量,即 k,可以从数学上证明: 


스크린샷 2025-05-30 5 19 34


② τ-test:单尾检验(置信度:α)


스크린샷 2025-05-30 오후 5 20 04


③ 证明


图片


④ 示例

示例 1. 给定 X1, ⋯, Xn​ ∼ Poisson(λ) 和原假设 H0​: λ = λ0,H1: λ ≠ λ0,找到显着性水平 α 的临界区域。


스크린샷 2025-05-30 오후 5 22 22


示例 2. 令 y1, ⋯, y5 服从参数 θ = (p1, ⋯, p5) 的多项分布,并定义 L(θ) = p1y1 ⋯ p5y5。给定原假设 H0:p1 = p2 = p3、p4 = p5 和备择假设 H1,找到显着性水平 α 的拒绝区域。


스크린샷 2025-05-30 오후 5 24 52


⑤ 补充品

○ 一些统计学家仅将这些测试称为似然比测试(LR 测试)  

○ 一些统计学家定义 -2 ln λ = 2 ln ℒ(H1) - 2 ln ℒ(H0)) 



4. p值 

⑴ 定义:当原假设成立时,比给定样本出现更多极值的概率

另一个定义:原假设为真的概率

② 仅当检验统计量包含在临界区域内时拒绝以及仅当 p 值小于 α 时拒绝是充要条件

③严格定义


스크린샷 2025-03-31 오후 11 06 20


⑵计算:θ*为测量值

①右侧检验 p值 = P(θ ≥ θ*)

②左侧测试 p值 = P(θ ≤ θ*)

关于μ的对称分布: p值 = P(|θ - μ| ≥ |θ* - μ|)

④ 卡方分布如果 θ* 大于中位数,则 p 值 = P(θ ≥ θ*)。如果 θ* 小于中位数,则 p 值 = P(θ ≤ θ*)

⑶功效和p值 

① 经典统计学的主要问题是求分布和幂递增

②严格含义高功效是指当α为常数时,如果备择假设为真,则拒绝原假设的概率较高

③ 表示 α 是常数

○ 含义是为从各种统计技术获得的每个分布定义一条恒定的马其诺线

○ 表示除了给定样本之外的许多其他情况都被视为原假设为真,即使它们不一定表明真实的原假设

④增加1-β的意义:在各种统计技术中使马奇诺防线变得更加极端的意义

⑤ 直观意义 较高的功效意味着当 α 恒定时,我们将使用显示较小 p 值的统计技术

例1. 对于同一样本,使用F统计量比t统计量具有更小的p值→更高的功效

示例2. t分布随着自由度的增加而变窄→幂增加

⑧ 不同的统计技术具有不同的功效:意味着对于相同的统计数据,统计结论可能不同

示例:相关系数和p值。

① H0:X和Y不相关 

② p值的含义:从不相关总体中抽取的样本组的相关系数大于给定相关系数的概率

③通过正态分布计算值的假设

○ 随机抽样数据

○ 二元正态分布:两个变量 X 和 Y 服从正态分布

○ 线性关系 二阶或三阶关系不适合 

○ 不满足以上三个条件,必须通过非参数检验计算p值 ⑸ 多重测试问题 

① 概述

○ 假设 p 值在原假设 H0 下服从均匀分布。

○ 证明:在原假设下,令S 的CDF 为F0。如果 F0 是非减函数,那么…


스크린샷 2025-04-15 1 06 37


○ 问题定义:假设我们测试 1,000 个假设,并拒绝每个假设的原假设,其 p 值小于 α = 0.05。在这种情况下,我们预计有多少零假设会被错误地拒绝?答案约为 50 (∵ 1000 × 0.05 = 50)。因此,我们不能假设所有被拒绝的假设都是显着的。


스크린샷 2025-04-17 8 40 31


○ 关键问题:进行多项统计测试本质上会增加得出不准确结论的可能性。

○ 示例:当从由多个基因组成的测序数据中识别差异表达基因 (DEG) 时,此问题尤其重要。

解决方案 1: 控制 Family-Wise 错误率 (FWER)

○ 定义:所有假设中至少得出一个错误结论的概率。


스크린샷 2025-04-17 8 46 55


○ 例如,5% FWER 表示即使有一个错误结论的概率也小于或等于 5%。这种方法非常保守,可以最大限度地减少误报。

○ FWER 有时被批评为导致低功耗,导致出现许多 II 类错误。

方法 1. Sidak 校正:调整 alpha 阈值而不是 p 值。当 p 值独立时使用。


스크린샷 2024-11-26 오후 3 38 43


○ d: 统计检验次数

方法 2. Bonferroni 校正:直接调整各个 p 值。即使 p 值不独立也可以应用。非常保守。


스크린샷 2024-11-26 3 39 44


○ d: 统计检验次数

○ 注意:如果调整后的 p 值超过 1,则强制设置为 1。

○ α 处的 FWER 证明

○ 令统计检验的数量为 m,并假设每个检验是独立的(此假设对于并集限制条件是必需的)。

○ I0 是一个固定但未知的集合,推测它主要由具有高 p 值的原假设组成。


스크린샷 2025-04-17 8 59 27


方法 3. Holm(降压)程序

步骤 1. 对 p 值进行排序,获得 P(1) ≤ ··· ≤ P(m)

步骤 2. 让 R 表示最小的 r ≥ 0,使得 P(r+1) > α / (m-r)。

步骤 3. 如果 R > 0,则拒绝 H(1),…,H(R),其中 H(i) 与 P(i) 相关联。


스크린샷 2025-04-17 9 12 39


○ α 处的 FWER 证明

○ 令统计检验的数量为 m,并假设每个检验是独立的(此假设对于并集限制条件是必需的)。»» ○ I0 是一个固定但未知的集合,推测它主要由具有高 p 值的原假设组成。


스크린샷 2025-04-17 오후 9 07 05


○ 在相同的α下,Holm比Bonferroni更强大。


스크린샷 2025-04-17 9 16 21


方法 4. Hochberg(升级)程序

步骤 1. 对 p 值进行排序,获得 P(1) ≤ ⋯ ≤ P(m)

步骤 2. 让 R 表示最大的 r ≥ 0,使得 P(r) ≤ α / (m + 1 - r)。

步骤 3. 如果 R > 0,则拒绝 H(1), ⋯, H(R),其中 H(i) 与 P(i) 相关联。


스크린샷 2025-04-17 오후 11 02 00


○ 直观理解显着性水平 α 下的 FWER 控制

○ 假设统计检验次数为 m,且每次检验都是独立的(独立性条件必需)

○ 令 I0 为固定但未知的集合,假设主要包括具有大 p 值的零假设

○ 注意:不等式 m - j0 + 1 ≥ m0 不一定成立,因此以下推导仅供参考


스크린샷 2025-04-17 11 05 14


○ 当使用相同的显着性水平α时,Hochberg比Holm更强大

○ 直觉:Holm 使用“for all”条件,而 Hochberg 使用“for some”条件

方法 5. Tukey-Kramer 诚实显着性差异(极差检验)

○ 此程序适用于在多样本情况下执行所有成对比较。

○ 零假设: Hjk : μj = μk

○ J 个样本 (Yij : i = 1, ···, nj), j = 1, ···, J

○ N = n1 + ··· + nJ

○ μj:j 组的总体平均值

○ 统计量:在 α 级,Tukey-Kramer 拒绝 Hjk 如果


스크린샷 2025-04-17 11 33 17


○ 理论:当样本独立、正态、方差相同,且样本量相等时,Tukey-Kramer 将 FWER 精确控制在 α 水平。

解决方案2:控制错误发现率(FDR)

○ 概述

○ 定义:将拒绝零假设的假设中错误结论(错误发现)的比例限制在一定水平。


스크린샷 2025-04-18 12 04 12


○ FWER 控制意味着 FDR 控制(处于同一级别 α)。


스크린샷 2025-04-18 12 04 55


○ 通过考虑 H0 和 H1 下的 p 值分布,可以执行不太保守的统计检验。


스크린샷 2025-02-02 오후 8 41 51


方法 1. Benjamini–Hochberg (B&H):适用于检验之间的相关性很简单的情况。»> ○ 步骤 1. 对 p 值进行排序,获得 P(1) ≤ ⋯ ≤ P(m)

步骤 2. 让 R 表示最大的 r,使得 P(r) ≤ rα / m。

步骤 3. 如果 R > 0,则拒绝 H(1), ⋯, H(R),其中 H(i) 与 P(i) 相关联。


스크린샷 2025-04-18 12 10 09


○ 与 Hotchberg 过程类似,这是一个逐步过程(从最不显着的 p 值开始),但阈值有很大不同。

○ Hotchberg 将 P(j) 与 α / (m - j + 1) 进行比较。

○ Benjamini-Hochberg 将 P(j) 与 jα / m 进行比较。

○ 直观理解显着性水平 α 下的 FDR 证明

○ 假设统计检验之间的独立性


스크린샷 2025-04-18 12 13 01


○ 调整后的 p 值


스크린샷 2025-02-02 오후 8 42 20


○ d:统计检验次数

○ 排名:p 值的排序顺序

○ 注意:如果调整后的 p 值超过 1,则强制设置为 1。

○ 等级越低(例如,等级 = 1),p 值应越低。如果不满足此条件,则有一个调整步骤。

○ 示例:对于显着性水平 α、总检验 m 和第 i 个最小 p 值 p(i)


스크린샷 2024-11-26 오후 3 42 05


基因 p-值 排名 初始调整 p-val 最终调整 p-val  
一个 0.039 0.039 3 0.039 × (25/3) = 0.325 0.21 0.21
0.001 0.001 1 0.001 × (25/1) = 0.025 0.025 0.025
C 0.041 0.041 4 0.041 × (25/4) = 0.256 0.21 0.21
d 0.042 0.042 5 0.042 × (25/5) = 0.21 0.21 0.21
电子 0.008 0.008 2 0.008 × (25/2) = 0.1 0.1 0.1
 


表 1. 25 个基因的 B&H 测试示例


方法 2. Benjamini–Yekutieli (B&Y):适用于测试之间具有复杂相关性的情况。

○ 无论检验是否独立,Benjamini-Yekutieli 都将 FDR 控制在 α。

○ 调整后的 p 值


스크린샷 2024-11-26 3 43 44


○ d:统计检验次数

○ 排名:p 值的排序顺序

○ Σi=1 至 d i/1:调整常数,通过考虑测试相关性更保守地控制 FDR。

○ 注意:如果调整后的 p 值超过 1,则强制设置为 1。

④ 调整后的 p 值:引入以在不同的校正方法中应用相同的显着性水平 α。


스크린샷 2025-04-18 12 15 17



5. 统计检验的类型

⑴ 概述

①【统计测试总结】(https://jb243.github.io/pages/1662)

② 【简单测试】(https://jb243.github.io/pages/1634)

类型1. 一个样本分类

① 汇总统计:表

② 可视化:条形图(=条形图)、饼图

1-1. 卡方拟合优度检验> ④ 1-2. 【似然比检验】(https://jb243.github.io/pages/614)

1-3. 运行测试

1-4. 模拟:蒙特卡罗模拟(例如排列)

类型2. 多样本分类

① 汇总统计:列联表

② 可视化:分段条形图、并排条形图

2-1. 卡方拟合优度检验

2-2. 【卡方独立性检验】(https://jb243.github.io/pages/1727#2-chi-square-test-of-independence)

2-3. 【Fisher 精确检验(超几何检验)】(https://jb243.github.io/pages/1690)

2-4. 模拟:蒙特卡洛模拟、参数引导

类型3. 一个样本数值

① 汇总统计:位置、规模

○ 位置:平均值、中位数、分位数等。

○ 尺度:标准差、中值绝对差等。

② 可视化:箱线图、直方图、Q-Q 图(正态性检查)

3-1. T检验

3-2. 卡方拟合优度检验:使用数据分箱

3-3. 柯尔莫哥洛夫-斯米尔诺夫测试

3-4. 模拟:蒙特卡罗模拟、非参数引导、参数引导

类型4. 两个样本数值

① 可视化:并排箱线图、Q-Q 图(正态性检查)

4-1. 配对 t 检验:单样本。参数化

4-2. 等方差的非配对 t 检验:两个样本。参数化

4-3. 具有不等方差的不配对 t 检验(Welch t 检验):两个样本。参数化

4-4. Wilcoxon 签名秩检验:单样本。非参数化

4-5. Wilcoxon 秩和检验:两个样本。非参数化

4-6. McNemar 检验:单样本

4-7. Kolmogorov-Smirnov 二样本检验:二样本。非参数化

4-8. 模拟:蒙特卡罗模拟(例如排列)、Bootstrap

类型5. 多样本数值

① 可视化:并排箱线图

5-1. 单向方差分析:参数

○ 假设:独立同分布、正态性、同方差(但不适用于 Welch ANOVA F 检验)

○ 可视化:残差图(同方差性检查)、Q-Q 图(正态性检查)

5-2. Tukey 诚实显着性差异

○ 假设:正态性、同方差(但不适用于 Welch ANOVA F 检验)

5-3. Kruskal-Wallis 测试:非参数

5-4. Friedman测试:重复测量

5-5. Cochrane 问题:重复措施

5-6. 双向方差分析

○ 可视化:并排箱线图、残差图(同方差检查)、交互图

5-7. 排列测试

类型 6. 双变量配对数值

① 汇总统计:相关系数

② 可视化:散点图

6-1. 皮尔逊相关系数

6-2. Spearman 相关性

6-3. Kendall tau 相关性

6-4. Cochran-Mantel-Haenszel (CMH) 测试

6-5. 柯尔莫哥洛夫-斯米尔诺夫独立性检验

6-6. 蒙特卡罗模拟(例如排列)

类型 7. 简单回归

① 可视化:散点图

7-1. T检验

7-2. 模拟:非参数引导、参数引导

类型 8. 同方差检验> ① 8-1. Levene 测试

8-2. Bartlett 检验

类型9. 正态性检验

9-1. 【Q-Q图】(https://jb243.github.io/pages/1742)

9-2. 夏皮罗-威尔克检验

9-3. 柯尔莫哥洛夫-斯米尔诺夫测试

④** 9-4.** 达戈斯蒂诺-皮尔逊检验



输入:2019.06.19 14:52

results matching ""

    No results matching ""