第 14 章. 统计测试

高级类别：【统计】【统计概述】(https://jb243.github.io/pages/1641)

1. 术语

2. 内曼-皮尔逊引理

3. 广义似然比检验

4. p 值

5. 统计测试类型

1.术语

⑴测试

①定义：验证假设是否具有统计显着性

○ 应用1.随机化检查（平衡测试）：验证随机抽样是否顺利

○ 应用 2. 因果效应：验证特定治疗是否会产生重大变化

②检验统计量：在一维上总结状态空间的n维信息，并用其进行统计检验

○ 示例： Z、T、χ²、F 等

○ 当关键区域的大小恒定时，能够在一维上进行概括很重要

③参数测试

○ 定义：基于测试统计的测试参数

○ 一般来说，假设总体的分布是正态分布：中心极限定理用于这个假设

○ 实际上，在没有上述假设的情况下对任何样本进行参数测试都不是大问题

④ 非参数检验

○ 定义：通过检验统计检验非参数特征的方法。

○ 无法指定总体分布时使用（无分布法）。

○ 相比参数化方法，统计量的计算更简单，更直观易懂。

○ 受异常值影响较小。

○ 检验统计数据的可靠性往往不足。

⑵假设

①原假设（H₀）：与现有条件或先前声称的情况相比没有变化或差异的假设

②备择假设（H₁）：拒绝零假设时接受的假设

○ 也称为研究假设。

③特征：对于参数θ，

○ H₀: θ₀ =｛θ₀, θ₀’, θ₀’’, ···｝

○ H₁: θ₁ =｛θ₁, θ₁’, θ₁’’, ···｝

○ 特征 1. p(θ ∈ θ₀ 或 θ ∈ θ₁) = 1

○ 特征2. p(θ ∈ θ₀ 且 θ ∈ θ₁) = 0

④分类

○ 简单假设：在 θ =｛θ₀｝、θ =｛θ₁｝的情况下，···

○ 复合假设：如果假设不是简单假设

○ 示例：H₀: θ ≤ θ0、H₁: θ ＞ θ0 的假设为复合假设

⑶ 临界区介绍

①状态空间=临界区+可接受区

○ 拒绝区域：导致拒绝原假设的检验统计量范围。

○ 样本 ε 临界区: H0 被拒绝

○样本∉临界区： H0不被拒绝

②幂函数π_C(θ)：当临界区为C、参数为θ时，样本包含在临界区的概率

③幂函数示例

○ p(x) = 4x³ / θ⁴ I｛0 ＜ x ＜ θ｝

○ C =｛x x≤0.5，x＞1｝

○ θ≤0.5

π_C(θ) = 1

○ 0.5＜θ≤1

π_C(θ) = ∫ p(x) dx （假设 x ∈ [0, 0.5] ）= 1 / 16θ⁴

○ 1 ＜ θ

π_C(θ) = ∫ p(x) dx （假设 x ∈ [0, 0.5] ∪[1, θ] ）= 1 - 15 / 16θ⁴

④ Size of Critical Region（Size of test）：原假设成立时样本被包含在临界区的概率的最大值

⑤功效：当备择假设成立时，样本被纳入临界区的概率。这也是当备择假设为真时，原假设被拒绝的概率

⑥错误：做出错误的统计结论

○ 理想临界区

○ Ⅰ 类错误（误报）

○ 定义：当零假设为真时拒绝零假设的错误

○ 条件：当原假设为简单假设时定义

○ Ⅰ型错误的概率(α) = 临界区域的大小

○ 显着性水平： 10%、5%、1% 等

○ 置信度： 90%、95%、99% 等

○ Ⅱ型错误（假阴性）

○ 定义：当备择假设为真时采用原假设的误差

○ 条件：当备择假设为简单假设时定义

○ 发生Ⅱ类错误的概率(β) = 1 - 幂

○ α 和 β 之间的权衡

图1. Ⅰ型误差（α）和Ⅱ型误差（β）之间的权衡

○ 临界区域显示为大于特定值或小于特定值的区间（∵ Neyman-Pearson 引理）

○ α 和 β 都不能减少

⑷ 临界区比较

① 标准：当临界区域大小相同时，功率应该更大

② 更强大的测试：针对特定的 θ1 ∈ θ1 和两个临界区域 C₁、C₂，

③ 最有力的测试：对于特定的 θ₁ ∈ θ₁ 和任意临界区域 C，

④ 一致最有力的测试：对于任何 θ ∈ θ₁ 和任何临界区域 C，

2.内曼-皮尔逊引理

⑴理念

①前提: H0: θ = θ₀, H₁: θ = θ₁（简单假设）

②问题：当临界区大小一定时，求一个使功率最大化的临界区

③推测：来自一个状态空间的样本被一一包含在临界区C中

○ 当包含样本 x C 时，p(x, θ₀) 和 p(x, θ₁) 都会增加

○ p(x, θ₀): 一种成本。 p(x, θ₀) 的增加会增加临界区域的大小 » ○ p(x, θ₁): 一种好处。 p(x, θ₁) 的增加会增加功效

④结论

○ 排队策略：以更快的顺序在关键区域中包含更多 p(x, θ₁) ÷ p(x, θ₀) 的样本 x 是有利的

○ 阵容策略制定的临界区域，C =｛x | p(x, θ₁) ÷ p(x, θ₀) ≥ k｝，是一致最强大测试的关键区域

⑵ 引理

①前提：H₀、H₁是简单假设

② 陈述：对于任何 k ∈ ℝ，如果我们采用以下临界区域，它将是一致最有力测试的临界区域

○ ℒ：似然函数

○ 似然比检验（LR 检验）：类似 λ(x) ≥ k 的检验

○ 临界区的确定：要知道临界区的具体形式，需要给出临界区的大小

○ 每个满足 λ(x) ≥ k 的 x 都包含在临界区域 C* 中

○ 每个满足 λ(x) ＜ k 的 x 都包含在临界区 C* 的补集中

③申请

○ 由于只有 p(x, θ₁) ÷ p(x, θ₀) 的阶数很重要，因此允许使用单调递增函数 f(·) 进行以下转换

○ 与 θ₀、θ₁、n 等相关的术语很容易被删除

○点：只要保证k’存在，就允许修改临界区

○ 临界区的确定：要知道临界区的确切形式，应给出临界区的大小

⑶证明

①假设：C*和C大小相同

② C*的定义

③结论： C*是一个关键区域，测试能力一致最强

⑷ 示例1.

① X₁, ···, X_n ~ 伯努利(θ)

② H₀: θ = θ₀, H₁: θ = θ₁ ＞ θ₀

③似然比检验

④ Z 检验（置信度：α）

○ θ₁ ＞ θ₀ ：单尾检验

○ θ₁ ＜ θ₀: 单尾检验

» ○ 一致最强测试的临界区域不存在，因为最强大测试的临界区域的大小取决于 θ₀ 是否大于 θ₁

⑸ 示例2.

① X₁, ···, X_n ~ N(μ, 1²)

② H₀: μ = μ₀, H₁: μ = μ₁ ＞ μ₀

③似然比检验

④ Z 检验：单尾检验（置信度：α）

⑹ 泛化 1. 当临界区不依赖于 θ₁ 的具体值时，无论 H₁ 是否为复合假设，临界区的形式都是恒定的

① X₁, ···, X_n ~ 伯努利(θ)

② H₀: θ = θ₀, H₁: θ ＞ θ₀

⑺ 泛化2. 在泛化1中，当备择假设是包含θ0的复合假设且当θ = θ₀时α为最大值时，临界区的形式是恒定的

① X₁, ···, X_n ~ 伯努利(θ)

② H₀: θ ＜ θ₀, H₁: θ ＞ θ₀

3.广义似然比检验

⑴定义

① Neyman-Pearson 引理的局限性：一般来说，原假设和备择假设应该是简单假设

②GLR检验（广义似然比检验）

③ max p(x, θ) 利用【最大似然法】(https://jb243.github.io/pages/1630) (ML)

④ 该方法已被证明可以设置统计上不错的临界区域

⑵ 例1. X_i ~ N(μ, σ²), σ²已知

① H₀: μ = μ₀, H₁: μ ≠ μ₀

②广义似然比检验

③ τ-test: 单尾检验（置信度：α）

④ Z检验：双尾检验（置信度：α）

⑤证明即使Xi不服从正态分布，也可以近似应用上述方法

⑶ 例2. X_i ~ N(μ, σ²), σ² 未知

① H₀: μ = μ₀, H₁: μ ≠ μ₀

②广义似然比检验

③ F检验：单尾检验（置信度：α）

④ T 检验：双\尾检验（置信度： α）

⑷ 示例 3. X_i ~ N(μ, σ²), σ² 未知

① H₀: μ = μ₀, H₁: μ ＞ μ₀

②广义似然比检验

③关键假设

○ X_avg ≥ μ₀ 比 X_avg ＜ μ₀ 的似然比更高，因此前者在阵容策略中的优先级高于后者

○ 由于显着性水平最多仅为 0.025、0.05 和 0.10，因此足以认为 Xavg ≥ μ0 具有全部可能情况的一半

④ T检验：单尾检验（置信度：α）

⑤ H₁: 即使 μ ＜ μ₀ 也应用相同的逻辑

⑸ 示例 4. X_i ~ N(μ, σ²), μ 未知

① H₀: σ² = σ₀², H₁: σ² ≠ σ₀²

②广义似然比检验

③设定临界区域

○ f(τ) 是一个向下凸函数，最小值位于 τ = n

○ 条件 1. P(τ ≥ k’ | H₀) + P(τ ≤ k’’ | H₀) = α

○ 条件 2. f(k’) = f(k’’)

④ τ-test: 双尾检验（置信度: α）

○ 需要数值分析来设定理想的临界区域

○ 在实践中，使用更简单的关键区域

⑹ 示例5.特殊似然比检验

①定义

○ 在 X_i ~ N(μ, σ²) 和 σ² 已知的情况下，2 ln λ ~ χ²(1)

○ 威尔克斯现象：如果样本量 n 足够大，则对于参数数量，即 k，可以从数学上证明：

② τ-test：单尾检验（置信度：α）

③ 证明

④ 示例

○ 示例 1. 给定 X₁, ⋯, X_n ∼ Poisson(λ) 和原假设 H₀： λ = λ₀，H₁： λ ≠ λ₀，找到显着性水平 α 的临界区域。

○ 示例 2. 令 y₁, ⋯, y₅ 服从参数 θ = (p₁, ⋯, p₅) 的多项分布，并定义 L(θ) = p₁^y₁ ⋯ p₅^y₅。给定原假设 H₀：p₁ = p₂ = p₃、p₄ = p₅ 和备择假设 H₁，找到显着性水平 α 的拒绝区域。

⑤ 补充品

○ 一些统计学家仅将这些测试称为似然比测试（LR 测试）

○ 一些统计学家定义 -2 ln λ = 2 ln ℒ(H₁) - 2 ln ℒ(H₀))

4. p值

⑴ 定义：当原假设成立时，比给定样本出现更多极值的概率

① 另一个定义：原假设为真的概率

② 仅当检验统计量包含在临界区域内时拒绝以及仅当 p 值小于 α 时拒绝是充要条件

③严格定义

⑵计算：θ*为测量值

①右侧检验： p值 = P(θ ≥ θ*)

②左侧测试： p值 = P(θ ≤ θ*)

③ 关于μ的对称分布： p值 = P(|θ - μ| ≥ |θ* - μ|)

④ 卡方分布：如果 θ* 大于中位数，则 p 值 = P(θ ≥ θ*)。如果 θ* 小于中位数，则 p 值 = P(θ ≤ θ*)

⑶功效和p值

① 经典统计学的主要问题是求分布和幂递增

②严格含义：高功效是指当α为常数时，如果备择假设为真，则拒绝原假设的概率较高

③ 表示 α 是常数

○ 含义是为从各种统计技术获得的每个分布定义一条恒定的马其诺线

○ 表示除了给定样本之外的许多其他情况都被视为原假设为真，即使它们不一定表明真实的原假设

④增加1-β的意义：在各种统计技术中使马奇诺防线变得更加极端的意义

⑤ 直观意义：较高的功效意味着当 α 恒定时，我们将使用显示较小 p 值的统计技术

⑥ 例1. 对于同一样本，使用F统计量比t统计量具有更小的p值→更高的功效

⑦ 示例2. t分布随着自由度的增加而变窄→幂增加

⑧ 不同的统计技术具有不同的功效：意味着对于相同的统计数据，统计结论可能不同

⑷ 示例：相关系数和p值。

① H₀：X和Y不相关

② p值的含义：从不相关总体中抽取的样本组的相关系数大于给定相关系数的概率

③通过正态分布计算值的假设

○ 随机抽样数据

○ 二元正态分布：两个变量 X 和 Y 服从正态分布

○ 线性关系：二阶或三阶关系不适合

○ 不满足以上三个条件，必须通过非参数检验计算p值 ⑸ 多重测试问题

① 概述

○ 假设 p 值在原假设 H₀ 下服从均匀分布。

○ 证明：在原假设下，令S 的CDF 为F₀。如果 F₀ 是非减函数，那么…

○ 问题定义：假设我们测试 1,000 个假设，并拒绝每个假设的原假设，其 p 值小于 α = 0.05。在这种情况下，我们预计有多少零假设会被错误地拒绝？答案约为 50 (∵ 1000 × 0.05 = 50)。因此，我们不能假设所有被拒绝的假设都是显着的。

○ 关键问题：进行多项统计测试本质上会增加得出不准确结论的可能性。

○ 示例：当从由多个基因组成的测序数据中识别差异表达基因 (DEG) 时，此问题尤其重要。

② 解决方案 1： 控制 Family-Wise 错误率 (FWER)

○ 定义：所有假设中至少得出一个错误结论的概率。

○ 例如，5% FWER 表示即使有一个错误结论的概率也小于或等于 5%。这种方法非常保守，可以最大限度地减少误报。

○ FWER 有时被批评为导致低功耗，导致出现许多 II 类错误。

○ 方法 1. Sidak 校正：调整 alpha 阈值而不是 p 值。当 p 值独立时使用。

○ d: 统计检验次数

○ 方法 2. Bonferroni 校正：直接调整各个 p 值。即使 p 值不独立也可以应用。非常保守。

○ d: 统计检验次数

○ 注意：如果调整后的 p 值超过 1，则强制设置为 1。

○ α 处的 FWER 证明

○ 令统计检验的数量为 m，并假设每个检验是独立的（此假设对于并集限制条件是必需的）。

○ I₀ 是一个固定但未知的集合，推测它主要由具有高 p 值的原假设组成。

○ 方法 3. Holm（降压）程序

○ 步骤 1. 对 p 值进行排序，获得 P₍₁₎ ≤ ··· ≤ P_(m)。

○ 步骤 2. 让 R 表示最小的 r ≥ 0，使得 P_(r+1) > α / (m-r)。

○ 步骤 3. 如果 R > 0，则拒绝 H⁽¹⁾，…，H^(R)，其中 H⁽ⁱ⁾ 与 P_(i) 相关联。

○ α 处的 FWER 证明

○ 令统计检验的数量为 m，并假设每个检验是独立的（此假设对于并集限制条件是必需的）。»» ○ I₀ 是一个固定但未知的集合，推测它主要由具有高 p 值的原假设组成。

○ 在相同的α下，Holm比Bonferroni更强大。

○ 方法 4. Hochberg（升级）程序

○ 步骤 1. 对 p 值进行排序，获得 P₍₁₎ ≤ ⋯ ≤ P_(m)。

○ 步骤 2. 让 R 表示最大的 r ≥ 0，使得 P_(r) ≤ α / (m + 1 - r)。

○ 步骤 3. 如果 R > 0，则拒绝 H⁽¹⁾, ⋯, H^(R)，其中 H⁽ⁱ⁾ 与 P_(i) 相关联。

○ 直观理解显着性水平 α 下的 FWER 控制

○ 假设统计检验次数为 m，且每次检验都是独立的（独立性条件必需）

○ 令 I₀ 为固定但未知的集合，假设主要包括具有大 p 值的零假设

○ 注意：不等式 m - j₀ + 1 ≥ m₀ 不一定成立，因此以下推导仅供参考

○ 当使用相同的显着性水平α时，Hochberg比Holm更强大

○ 直觉：Holm 使用“for all”条件，而 Hochberg 使用“for some”条件

○ 方法 5. Tukey-Kramer 诚实显着性差异（极差检验）

○ 此程序适用于在多样本情况下执行所有成对比较。

○ 零假设： H^jk : μ_j = μ_k

○ J 个样本 (Y_ij : i = 1, ···, n_j), j = 1, ···, J

○ N = n₁ + ··· + n_J

○ μ_j：j 组的总体平均值

○ 统计量：在 α 级，Tukey-Kramer 拒绝 H^jk 如果

○ 理论：当样本独立、正态、方差相同，且样本量相等时，Tukey-Kramer 将 FWER 精确控制在 α 水平。

③ 解决方案2：控制错误发现率（FDR）

○ 概述

○ 定义：将拒绝零假设的假设中错误结论（错误发现）的比例限制在一定水平。

○ FWER 控制意味着 FDR 控制（处于同一级别 α）。

○ 通过考虑 H₀ 和 H₁ 下的 p 值分布，可以执行不太保守的统计检验。

○ 方法 1. Benjamini–Hochberg (B&H)：适用于检验之间的相关性很简单的情况。»> ○ 步骤 1. 对 p 值进行排序，获得 P₍₁₎ ≤ ⋯ ≤ P_(m)。

○ 步骤 2. 让 R 表示最大的 r，使得 P_(r) ≤ rα / m。

○ 步骤 3. 如果 R > 0，则拒绝 H⁽¹⁾, ⋯, H^(R)，其中 H⁽ⁱ⁾ 与 P_(i) 相关联。

○ 与 Hotchberg 过程类似，这是一个逐步过程（从最不显着的 p 值开始），但阈值有很大不同。

○ Hotchberg 将 P_(j) 与 α / (m - j + 1) 进行比较。

○ Benjamini-Hochberg 将 P_(j) 与 jα / m 进行比较。

○ 直观理解显着性水平 α 下的 FDR 证明

○ 假设统计检验之间的独立性

○ 调整后的 p 值

○ d：统计检验次数

○ 排名：p 值的排序顺序

○ 注意：如果调整后的 p 值超过 1，则强制设置为 1。

○ 等级越低（例如，等级 = 1），p 值应越低。如果不满足此条件，则有一个调整步骤。

○ 示例：对于显着性水平 α、总检验 m 和第 i 个最小 p 值 p_(i)

基因	p-值	排名	初始调整 p-val	最终调整 p-val
一个	0.039	0.039 3	0.039 × (25/3) = 0.325	0.21	0.21
乙	0.001	0.001 1	0.001 × (25/1) = 0.025	0.025	0.025
C	0.041	0.041 4	0.041 × (25/4) = 0.256	0.21	0.21
d	0.042	0.042 5	0.042 × (25/5) = 0.21	0.21	0.21
电子	0.008	0.008 2	0.008 × (25/2) = 0.1	0.1	0.1
…	…	…	…	…

表 1. 25 个基因的 B&H 测试示例

○ 方法 2. Benjamini–Yekutieli (B&Y)：适用于测试之间具有复杂相关性的情况。

○ 无论检验是否独立，Benjamini-Yekutieli 都将 FDR 控制在 α。

○ 调整后的 p 值

○ d：统计检验次数

○ 排名：p 值的排序顺序

○ Σ_{i=1 至 d} i/1：调整常数，通过考虑测试相关性更保守地控制 FDR。

○ 注意：如果调整后的 p 值超过 1，则强制设置为 1。

④ 调整后的 p 值：引入以在不同的校正方法中应用相同的显着性水平 α。

5. 统计检验的类型

⑴ 概述

①【统计测试总结】(https://jb243.github.io/pages/1662)

② 【简单测试】(https://jb243.github.io/pages/1634)

⑵ 类型1. 一个样本分类

① 汇总统计：表

② 可视化：条形图（=条形图）、饼图

③ 1-1. 卡方拟合优度检验> ④ 1-2. 【似然比检验】(https://jb243.github.io/pages/614)

⑤ 1-3. 运行测试

⑥ 1-4. 模拟：蒙特卡罗模拟（例如排列）

⑶ 类型2. 多样本分类

① 汇总统计：列联表

② 可视化：分段条形图、并排条形图

③ 2-1. 卡方拟合优度检验

④ 2-2. 【卡方独立性检验】(https://jb243.github.io/pages/1727#2-chi-square-test-of-independence)

⑤ 2-3. 【Fisher 精确检验（超几何检验）】(https://jb243.github.io/pages/1690)

⑥ 2-4. 模拟：蒙特卡洛模拟、参数引导

⑷ 类型3. 一个样本数值

① 汇总统计：位置、规模

○ 位置：平均值、中位数、分位数等。

○ 尺度：标准差、中值绝对差等。

② 可视化：箱线图、直方图、Q-Q 图（正态性检查）

③ 3-1. T检验

④ 3-2. 卡方拟合优度检验：使用数据分箱

⑤ 3-3. 柯尔莫哥洛夫-斯米尔诺夫测试

⑥ 3-4. 模拟：蒙特卡罗模拟、非参数引导、参数引导

⑸ 类型4. 两个样本数值

① 可视化：并排箱线图、Q-Q 图（正态性检查）

② 4-1. 配对 t 检验：单样本。参数化

③ 4-2. 等方差的非配对 t 检验：两个样本。参数化

④ 4-3. 具有不等方差的不配对 t 检验（Welch t 检验）：两个样本。参数化

⑤ 4-4. Wilcoxon 签名秩检验：单样本。非参数化

⑥ 4-5. Wilcoxon 秩和检验：两个样本。非参数化

⑦ 4-6. McNemar 检验：单样本

⑧ 4-7. Kolmogorov-Smirnov 二样本检验：二样本。非参数化

⑨ 4-8. 模拟：蒙特卡罗模拟（例如排列）、Bootstrap

⑹ 类型5. 多样本数值

① 可视化：并排箱线图

② 5-1. 单向方差分析：参数

○ 假设：独立同分布、正态性、同方差（但不适用于 Welch ANOVA F 检验）

○ 可视化：残差图（同方差性检查）、Q-Q 图（正态性检查）

③ 5-2. Tukey 诚实显着性差异

○ 假设：正态性、同方差（但不适用于 Welch ANOVA F 检验）

④ 5-3. Kruskal-Wallis 测试：非参数

⑤ 5-4. Friedman测试：重复测量

⑥ 5-5. Cochrane 问题：重复措施

⑦ 5-6. 双向方差分析

○ 可视化：并排箱线图、残差图（同方差检查）、交互图

⑧ 5-7. 排列测试

⑺ 类型 6. 双变量配对数值

① 汇总统计：相关系数

② 可视化：散点图

③ 6-1. 皮尔逊相关系数

④ 6-2. Spearman 相关性

⑤ 6-3. Kendall tau 相关性

⑥ 6-4. Cochran-Mantel-Haenszel (CMH) 测试

⑦ 6-5. 柯尔莫哥洛夫-斯米尔诺夫独立性检验

⑧ 6-6. 蒙特卡罗模拟（例如排列）

⑻ 类型 7. 简单回归

① 可视化：散点图

② 7-1. T检验

③ 7-2. 模拟：非参数引导、参数引导

⑼ 类型 8. 同方差检验> ① 8-1. Levene 测试

② 8-2. Bartlett 检验

⑽ 类型9. 正态性检验

① 9-1. 【Q-Q图】(https://jb243.github.io/pages/1742)

② 9-2. 夏皮罗-威尔克检验

③ 9-3. 柯尔莫哥洛夫-斯米尔诺夫测试

④** 9-4.** 达戈斯蒂诺-皮尔逊检验

输入：2019.06.19 14:52

6631

第 14 章. 统计测试

1.术语

2.内曼-皮尔逊引理

3.广义似然比检验

4. p值

5. 统计检验的类型

results matching ""

No results matching ""