第 15 章。方差分析 (ANOVA)

高级类别：【统计】【统计概述】(https://jb243.github.io/pages/1641)

1. 方差分析

2. 单向方差分析

3. 双向方差分析

a. R Studio 的方差分析

1.方差分析 (ANOVA)

⑴定义n：比较n组的统计分析（假设n>2）

⑵ Ⅰ型错误膨胀：在n个组中进行t检验时出现问题（假设n>2）

① 1 组没有 Ⅰ 型错误的概率（显着性水平 5%）： 0.95

② n 个组全部不存在 Ⅰ 型错误的概率（显着性水平 5%）: 0.95n

③ n 个组至少出现一次 Ⅰ 型错误的概率（显着性水平 5%） : 1 - 0.95n ≫ 0.05

④由于Ⅰ型误差膨胀，引入ANOVA

⑶ 假设：这些是单向方差分析和双向方差分析所必需的

①常态

○ 定义：所有数据均从遵循正态分布的总体中提取

○ 正态性检验类型：Q-Q 图、Shapiro-Wilk 检验、Kolmogorov-Smirnov 检验、D’Agostino-Pearson 检验

○ 如果总体难以视为正态分布，请使用幂变换或对数变换使它们类似于正态分布

○ Welch 方差分析 F 检验不假设同方差性。

○ 这里，考虑了一些人口，因为人口的手段可能会有所不同

图 1. 通过对数变换生成模拟正态分布的示例

②独立性：也称为i.i.d。

○ 定义：每个数据都是从总体中独立提取的

○ 与实验设计相关

○ 这里，考虑了一些人口，因为人口的手段可能会有所不同

③同方差性

○ 定义：所有数据均来自具有相同方差的总体，即使总体的均值不同

○ 若最大方差与最小方差之比不超过4:1，可采用方差分析

○ 如果很难使用 ANOVA，请使用平方根变换来最小化方差差异

○ 回归分析中的等方差意味着 Yi 的方差对于每个 Xi: 方差分析和回归分析之间同方差的含义略有不同

○ 如果不满足同方差性，则应应用 Welch 方差分析

⑷ 鲁棒性

①定义：在满足大量样本、类别内重复次数相同等情况下，即使存在异方差性和非正态性，统计结论也不会改变的特征

② ANOVA 的稳健性： ANOVA 比其他方法更适用，即使其同方差性和正态性不严格满足

③回归分析的稳健性：添加或改变回归变量不会显着改变特定系数值的特征

⑸（比较）回归分析与交叉分析

①方差分析：自变量是分类（分类）变量。因变量是可测量变量

②交叉分析：自变量是分类（分类）变量。因变量是分类（分类）变量

③回归分析：自变量是可测量变量。因变量是可测量变量

## 2.单因素方差分析

⑴定义：方差分析中只有1个自变量和1个因变量的情况

① 自变量称为治疗效果或因子

②适当因变量的例子：｛身高｝，｛体重｝(O)

③不适当因变量的例子：｛身高、体重｝(X)

⑵ 单因素方差分析模型

① 模型1. 固定效应模型

○ 定义：比较某些物体的效果。换句话说，因素的水平是固定的

○ 方法：不需要从群体中进行提取试验。事后分析很重要

○ 示例：对照、治疗 A、治疗 B

② 模型2. 随机效应建模

○ 定义：着眼于人口总体趋势。换句话说，因素的水平是随机的

○ 方法：从总体中随机抽取样本并进行方差分析。不需要事后分析

○ 示例 : 当工厂老板想要确保所有工厂产品的重量相同时

③ 单向方差分析中，固定效应建模和随机效应建模遵循相同的计算流程

⑶ 问题情况

因素	第 1 组	第 2 组	第 3 组
样品	11	11 8	5
10	10 7	4
8	5	2
7	4	1
平均	9	6	3

表 1. 单向方差分析示例

① X̄₁ = 9, X̄₂ = 6, X̄₃ = 3, X̄ = 6

② 第1组、第2组、第3组的样本量允许不同

⑷ 设定假设

① H₀ : μ_{组 1} = μ_{组 2} = ··· = μ_{组 m} = μ（假设上述情况中 m = 3）

② H₁ :至少有一对总体均值不相等

⑸ F统计量的推导

① 想法：如果组内方差明显小于组间方差，则可以说样本组之间存在差异

②定义

③ 平方和（SS）

④ 方差比的计算

○ 方差比: 也称F比

○ 组间方差：与误差和治疗效果相关

○ 组内方差：与误差相关

⑤ 结果表

因素	平方和	自由度	平方均值	F 比	p值
效果	72	72 2	36	36 10.8	10.8 0.0040583	0.0040583
误差（残差）	30	9	3.33	3.33
总和	102	102 11	11

表。 2.结果表

○ 误差平方和 = 组间方差 + 组内方差 = 72 + 30 = 102

○ 总自由度 = 组间方差自由度 + 组内方差自由度 = (k - 1) + (n - k) = n - 1

○ 组变量不是数字，因此计算决定系数没有意义

○ 报告示例： “单因素方差分析显示三种处理之间存在显着差异（第 1 组、第 2 组和第 3 组）： F_2.9 = 10.8，p ＜ 0.01”» ○ 提示。 计算 72 和 30 时，使用 12 项（∵ 对称性）

⑹ F统计量的证明

①【样本分组及样本分布】(https://classroom.tistory.com/42)

②组间方差分布

③组内方差分布

④方差比分布

⑺ 特点

① 如果每组的样本数量相似，则功效较高

② 如果特定组的样本数量较少，可靠性值得怀疑

③ 拒绝备择假设并不总是得出配对 t 检验中一对均值不同的结论

④ 与配对t检验不同，事后分析（海报分析）表明哪对组是不同的

⑻ Levene检验：异方差检验

图 2. Levene 测试示例

① 第一^第一。检查每个偏差的绝对值，计算为与每个相关样本组平均值的差异

○ 控制: (8, 7, 7, 8)

○ 肿瘤抑制器: (2, 1, 1, 2)

○ 抑制素 4: (2, 1, 1, 2)

② 第二^第二。对三个新组执行单向方差分析

③ 第三^第。与其他两组相比，对照组明显显示出较大偏差：拒绝同方差

④ 其他异方差性检验：Bartlett 检验

⑼事后分析：基本上是通过多重比较得出的

① LSD、Bonferroni、Sidak、Tukey、Duncan、Dunnett、Scheffe、Student-Newman-Keuls、BH 程序等

○ Scheffe、Tukey、Duncan 和 Student-Newman-Keuls 最受欢迎

○ 三者中，谢夫最保守，邓肯最宽松

○ 自然科学中： 一般首先进行Tukey检验，如果Tukey检验不显着则使用Duncan

○ 在社会科学中： 一般来说，Scheffe 被频繁使用

② 示例：Tukey HSD（确实显着差异，Tukey-Kramer 方法）

○ 与Bland-Altman测试不同。

○ 统计

○ 测试

图3.方差分析后的多重比较测试

○ 情况1. 样本均值中A＞B＞C＞D＞E

○ 情况 2. 作为单向方差分析的结果，所有均值不相等

○ 第一^第一。按照 A-E、A-D、A-C、A-B 的顺序用 Tukey 统计量进行检验： A-C 不显着，因此省略 A-B 检验 » ○ 第二^第二。按照 B-E、B-D、B-C 的顺序用 Tukey 统计量进行检验 : A-C 不显着，因此省略 B-C 检验

○ 第三^第。按 C-E 和 C-D 的顺序使用 Tukey 统计量进行检验

○ 第 4。使用 Tukey 统计量检验 D-E

○ 如果不按大小排序，总共10次测试会出现10次Ⅰ型错误，即Ⅰ型错误膨胀

○ 在上述情况下，情况稍好一些，因为仅出现了 8 次 Ⅰ 类错误

③事后分析时的注意事项

○ 示例

控制	神经抑制素	米托斯特
7	4	1
8	5	2
10	10 7	4
11	11 8	5

表 3. 事后分析示例

○ 结果

图 4. 事后分析中的注意事项

○ Control = Neurohib、Neurohib = Mitostop，但 Control ≠ Mitostop 的原因是Ⅰ型错误

○ 示例：如果 A = B 的概率为 10%，B = C 为 10%，则 A = B = C 的概率为 1%，这是显着不同的

3。双向方差分析

⑴概述

① 定义 : 尝试对两个自变量、一个因变量进行方差分析

② 不仅每个因素的主效应值得关注，而且它们之间的相互作用也值得关注

③假设

○ 正态性 : 总体服从正态分布

○ 独立性：样本是从总体中随机抽取的

○ 同方差 : 总体具有相同的方差

○ 正交性 : 两个因素彼此不相关

○ 对正交性的满意与没有交互无关：理解概念上的差异是必要的。

⑵ 情况分类

图5.双因素实验结果分类

⒜ 无温度影响；无湿度影响

⒝无温度影响；存在湿度影响

⒞ 存在温度影响；无湿度影响

⒟ 存在温度影响；存在湿度影响

⒠ 存在温度影响；存在湿度影响；存在的相互作用

⑶ 双向方差分析模型

① 在双向方差分析中应以不同方式计算随机效应的原因

图 6. 在双向方差分析中应以不同方式计算随机效应的原因

○情况： B2和B4是从因子B中随机提取的水平

○ 期望 : A 的主效应应该是不明确的

○现实：由于随机抽样效应，A的主效应似乎是存在的

② 模型1.固定效应模型：两个因子的水平是固定的

因素	平方和	自由度	平方均值	F 比
一个	SS_A	df_A = I-1	df_A = I-1	MS_A = SS_A ÷ df_A	F_A = MS_A ÷ MS_E
乙	SS_B	df_B = J-1	MS_B = SS_B ÷ df_B	F_B = MS_B ÷ MS_E
甲 × 乙	SS_A×B	df_A×B = (I-1)(J-1)	MS_A×B = SS_A×B ÷ df_A×B	F_A×B = MS_A×B ÷ MS_E
误差（残差）	SS_E	df_E = n-IJ	df_E = n-IJ	MS_E = SS_E ÷ df_E
总和	海温	n-1	n-1

表4.固定效应建模结果表

③ 模型2.随机效应建模：两个因子的水平是随机的

来源	平方和	自由度	均方	F 比
一个	SS_A	df_A = I - 1	MS_A = SS_A ÷ df_A	F_A = MS_A ÷ MS_A×B
乙	SS_B	df_B = J - 1	df_B = J - 1	MS_B = SS_B ÷ df_B	F_B = MS_B ÷ MS_A×B
甲 × 乙	SS_A×B	df_A×B = (I - 1)(J - 1)	df_A×B = (I - 1)(J - 1)	MS_A×B = SS_A×B ÷ df_A×B	F_A×B = MS_A×B ÷ MS_E
误差（残差）	SS_E	df_E = n - IJ	df_E = n - IJ	MS_E = SS_E ÷ df_E
总计	SS_T	n - 1	n - 1

表5.随机效应建模结果表

④ 模型3.混合效应模型：一个因子具有固定水平，另一个因子具有随机水平

因素	平方和	自由度	平方均值	F 비
一个	SS_A	df_A = I-1	df_A = I-1	MS_A = SS_A ÷ df_A	F_A = MS_A ÷ MS_A×B
乙	SS_B	df_B = J-1	MS_B = SS_B ÷ df_B	F_B = MS_B ÷ MS_E
甲 × 乙	SS_A×B	df_A×B = (I-1)(J-1)	MS_A×B = SS_A×B ÷ df_A×B	F_A×B = MS_A×B ÷ MS_E
误差（残差）	SS_E	df_E = n-IJ	df_E = n-IJ	MS_E = SS_E ÷ df_E
总和	海温	n-1	n-1

表6.混合效应建模结果表

○ A为固定效应，B为随机效应

○ 提示. 通过与下面的嵌套方差分析进行比较来理解

⑷ 示例：固定效应建模

湿度（%）	温度（℃）
20	30	40	40
33	33 1	5	9
2	6	10	10
3	7	11	11
66	66 9	13	17	17
10	10 14	14 18	18
11	11 15	15 19	19
99	99 17	17 21	21 25	25
18	18 22	22 26	26
19	19 23	23 27	27

表。 7. 双向方差分析示例

①定义

② 平方和

③方差比的计算

④ 结果表

因素	平方和	自由度	平方均值	F 比	p值
温度	288	288 2	144	144 144	144 8.43e-12	8.43e-12
湿度	1152	1152 2	576	576 576	576 < 2e-16
温度×湿度	0	4	0	0	1
误差（残差）	18	18 18	18 1
总和	1464	1464 26	26

表 8. 结果表

○ 零假设 1. μ_20℃ = μ_30℃ = μ_40℃ = μ : 拒绝该零假设，因为 p 值 = 8.43e-12 ＜ 0.05

○ 零假设 2. μ_33% = μ_66% = μ_99% = μ : 拒绝该零假设，因为 p 值＜ 2e-16 ＜ 0.05

○ 零假设 3. 温度和湿度的相互作用 = 0: 不会拒绝该零假设，因为 p 值 = 1

○ 【决定系数】(https://jb243.github.io/pages/1632) = 1 - 18 ÷ 1464 = 0.987704918

○ 相关系数 = ± √ 0.987704918 = 0.993833445

○ 相关系数的符号根据斜率估计器的符号确定

⑤ 交互作用掩盖了主效应，所以不要相信存在显着交互作用时的F值

○ 例如，如果A物质促进基因表达，B物质抑制基因表达，

○ A物质和B物质同时处理时，基因表达无明显变化

○ 不过，A 和 B 都不是无效的。

⑸ 应用1. 无需复制的测试

①概述

○ 单向方差分析不可能

○ 当实验群体数量不足或费用昂贵时使用

② 示例

辐射水平	药品			平均
普罗希布	睾丸块	控制
低	81	81 76	76 79	79 78.67	78.67
中等	45	45 46	46 45	45 45.33
高	28	28 27	27 27	27 27.33	27.33
平均	51.33	51.33 49.67	49.67 50.33	50.44	50.44

表 9. 不进行复制的测试示例

③ 结果表

因素	平方和	自由度	平方均值	F 比	p值
药品	4070.222	2	2035.111	2035.111 832.546	5.74e-06
辐射	4.222	4.222 2	2.111	2.111 0.864	0.864 0.488	0.488
误差（残差）	9.778	9.778 4	2.444	2.444
总和	4084.222	8

表10.未重复检验的方差分析结果表

○ 没有重复的测试方差分析不应包含交互项

○ 如果包含交互项，则该项的残差自由度 = (RC - 1) - (R - 1 + C - 1 + (R - 1)(C - 1) = 0，因此无法计算F比

⑹ 应用2.随机区组实验设计：非重复方差分析的例子

①定义：将区域划分为若干块后，每个块再次细分以实验不同的Factor

图 7. 随机区组实验设计

○ 双向方差分析是可能的：有两个因素；区域特定因素和治疗因素 » ○ 目的：通过分离区域特定因素来提高治疗统计结论的可靠性

② 流程

○ 第一^第一。将整个区域划分为几个区域

○ 第二^第二。为每个区域随机分配块号

○ 第三^第。每个块被分为与处理级别数一样多的子块

○ 第 4。随机分配每个子块上处理级别的位置

○ 第五^th。对每个块中的每个处理重复测量

○ 第六^th。具有统计显着性的块因子表明明显存在区域特定因子

○ 地区特定因素：地下水的存在、日光差异、地下矿脉的存在等

③结果

表11.随机区组实验设计的结果

⑺ 应用3. 方差的嵌套分析

① 模拟双向分析 ：现实中属于单向方差分析

② 示例

○ 问题情况

虾粮+维生素A		虾食品
池塘 1	池塘 2	池塘 3	池塘 4
30	60	80	110	110
35	35 65	65 85	85 115	115
45	45 75	75 95	95 125	125
50	50 80	100	100 130	130

表12.嵌套方差分析的情况

图8.嵌套方差分析的情况

○ F统计量的计算

因素	平方和	自由度	平方均值	F 比	p值
饮食	10000.0	1	10000.0	5.556	5.556 0.143	0.143
池塘（饮食）	3600.0	3600.0 2	1800.0	21.600	21.600 0.000	0.000
误差（残差）	1000.0	1000.0 12	12 83.3	83.3
总和	14600.0	14	14

表13.嵌套方差分析中F统计量的计算

○实际计算：计算10000、3600、1000时，右侧项数为16（∵对称性）

③ 类似于随机区组实验设计，但存在明显差异

○ 区别1. 池塘1、池塘2、池塘3、池塘4不能划分为任何区块

○ 差异2. 不满足正交性，这基本上是双向方差分析的假设： Diet 和 Pond(Diet) 不正交

○ 差异3.自由度计算的差异：Pond（Diet）的自由度总共为2，其中Pond 1 ↔ Pond 2和Pond 3 ↔ Pond 4

○ 在上例中，如果您正在设计随机区组实验设计，则区组的自由度为 1

○ 随机区组实验设计增加了误差自由度，从而提高了F比（提高了检验的功效）

○ 我们旨在设计随机区组实验设计而不是嵌套方差分析的原因

○ 差异 4. 像池塘 × 饮食一样计算，而不将池塘视为独立因素

输入时间：2019.11.16 17:36

6635

第 15 章。方差分析 (ANOVA)

1.方差分析 (ANOVA)

3。双向方差分析

results matching ""

No results matching ""