Korean, Edit

第 15 章。方差分析 (ANOVA) 

高级类别:【统计】【统计概述】(https://jb243.github.io/pages/1641)


1. 方差分析

2. 单向方差分析

3. 双向方差分析


a. R Studio 的方差分析



1.方差分析 (ANOVA) 

⑴定义n比较n组的统计分析(假设n>2)

⑵ Ⅰ型错误膨胀在n个组中进行t检验时出现问题(假设n>2)

① 1 组没有 Ⅰ 型错误的概率(显着性水平 5%) 0.95

② n 个组全部不存在 Ⅰ 型错误的概率(显着性水平 5%): 0.95n

③ n 个组至少出现一次 Ⅰ 型错误的概率(显着性水平 5%) : 1 - 0.95n ≫ 0.05

④由于Ⅰ型误差膨胀,引入ANOVA 

⑶ 假设 这些是单向方差分析和双向方差分析所必需的 

①常态

○ 定义 所有数据均从遵循正态分布的总体中提取

○ 正态性检验类型:Q-Q 图、Shapiro-Wilk 检验、Kolmogorov-Smirnov 检验、D’Agostino-Pearson 检验

○ 如果总体难以视为正态分布,请使用幂变换或对数变换使它们类似于正态分布

○ Welch 方差分析 F 检验不假设同方差性。

○ 这里,考虑了一些人口,因为人口的手段可能会有所不同


绘图

图 1. 通过对数变换生成模拟正态分布的示例


②独立性也称为i.i.d。

○ 定义 每个数据都是从总体中独立提取的

○ 与实验设计相关

○ 这里,考虑了一些人口,因为人口的手段可能会有所不同

③同方差性

○ 定义 所有数据均来自具有相同方差的总体,即使总体的均值不同

○ 若最大方差与最小方差之比不超过4:1,可采用方差分析

○ 如果很难使用 ANOVA,请使用平方根变换来最小化方差差异 

○ 回归分析中的等方差意味着 Yi 的方差对于每个 Xi: 方差分析和回归分析之间同方差的含义略有不同 

○ 如果不满足同方差性,则应应用 Welch 方差分析 

⑷ 鲁棒性

①定义在满足大量样本、类别内重复次数相同等情况下,即使存在异方差性和非正态性,统计结论也不会改变的特征

② ANOVA 的稳健性 ANOVA 比其他方法更适用,即使其同方差性和正态性不严格满足 

③回归分析的稳健性添加或改变回归变量不会显着改变特定系数值的特征

⑸(比较)回归分析与交叉分析

①方差分析自变量是分类(分类)变量。因变量是可测量变量

②交叉分析自变量是分类(分类)变量。因变量是分类(分类)变量

③回归分析自变量是可测量变量。因变量是可测量变量



## 2.单因素方差分析 

⑴定义方差分析中只有1个自变量和1个因变量的情况 

① 自变量称为治疗效果或因子

②适当因变量的例子{身高},{体重}(O)

③不适当因变量的例子{身高、体重}(X)

⑵ 单因素方差分析模型

模型1. 固定效应模型

○ 定义 比较某些物体的效果。换句话说,因素的水平是固定的

○ 方法 不需要从群体中进行提取试验。事后分析很重要 

○ 示例 对照、治疗 A、治疗 B 

模型2. 随机效应建模 

○ 定义着眼于人口总体趋势。换句话说,因素的水平是随机的

○ 方法从总体中随机抽取样本并进行方差分析。不需要事后分析 

○ 示例 : 当工厂老板想要确保所有工厂产品的重量相同时

③ 单向方差分析中,固定效应建模和随机效应建模遵循相同的计算流程 

⑶ 问题情况


因素 第 1 组 第 2 组 第 3 组
样品 11 11 8 5
10 10 7 4  
8 5 2  
7 4 1  
平均 9 6 3

表 1. 单向方差分析示例


① X̄1 = 9, X̄2 = 6, X̄3 = 3, X̄ = 6

② 第1组、第2组、第3组的样本量允许不同

⑷ 设定假设

① H0 : μ组 1 = μ组 2 = ··· = μ组 m = μ(假设上述情况中 m = 3) 

② H1 :至少有一对总体均值不相等

⑸ F统计量的推导

想法如果组内方差明显小于组间方差,则可以说样本组之间存在差异

②定义


绘图


③ 平方和(SS)


绘图


④ 方差比的计算 

○ 方差比: 也称F比

○ 组间方差 与误差和治疗效果相关 

○ 组内方差 与误差相关 


绘图


⑤ 结果表 


因素 平方和 自由度 平方均值 F 比 p值  
效果 72 72 2 36 36 10.8 10.8 0.0040583 0.0040583
误差(残差) 30 9 3.33 3.33      
总和 102 102 11 11        


表。 2.结果表


○ 误差平方和 = 组间方差 + 组内方差 = 72 + 30 = 102 

○ 总自由度 = 组间方差自由度 + 组内方差自由度 = (k - 1) + (n - k) = n - 1 

○ 组变量不是数字,因此计算决定系数没有意义

○ 报告示例 “单因素方差分析显示三种处理之间存在显着差异(第 1 组、第 2 组和第 3 组) F2.9 = 10.8,p < 0.01”» ○ 提示。 计算 72 和 30 时,使用 12 项( 对称性)

⑹ F统计量的证明 

①【样本分组及样本分布】(https://classroom.tistory.com/42)

②组间方差分布 


绘图


③组内方差分布 


绘图


④方差比分布


绘图


⑺ 特点 

① 如果每组的样本数量相似,则功效较高

② 如果特定组的样本数量较少,可靠性值得怀疑

③ 拒绝备择假设并不总是得出配对 t 检验中一对均值不同的结论

④ 与配对t检验不同,事后分析(海报分析)表明哪对组是不同的

⑻ Levene检验异方差检验 


绘图

绘图

图 2. Levene 测试示例


① 第一第一。检查每个偏差的绝对值,计算为与每个相关样本组平均值的差异 

○ 控制: (8, 7, 7, 8)

○ 肿瘤抑制器: (2, 1, 1, 2)

○ 抑制素 4: (2, 1, 1, 2)

② 第二第二。对三个新组执行单向方差分析 

③ 第三。与其他两组相比,对照组明显显示出较大偏差拒绝同方差 

④ 其他异方差性检验:Bartlett 检验

⑼事后分析基本上是通过多重比较得出的

① LSD、Bonferroni、Sidak、Tukey、Duncan、Dunnett、Scheffe、Student-Newman-Keuls、BH 程序等 

○ Scheffe、Tukey、Duncan 和 Student-Newman-Keuls 最受欢迎 

○ 三者中,谢夫最保守,邓肯最宽松

自然科学中: 一般首先进行Tukey检验,如果Tukey检验不显着则使用Duncan 

在社会科学中: 一般来说,Scheffe 被频繁使用 

示例Tukey HSD(确实显着差异,Tukey-Kramer 方法)

○ 与Bland-Altman测试不同。

○ 统计


绘图


○ 测试


绘图

绘图

图3.方差分析后的多重比较测试


情况1. 样本均值中A>B>C>D>E 

情况 2. 作为单向方差分析的结果,所有均值不相等 

○ 第一第一。按照 A-E、A-D、A-C、A-B 的顺序用 Tukey 统计量进行检验 A-C 不显着,因此省略 A-B 检验 » ○ 第二第二。按照 B-E、B-D、B-C 的顺序用 Tukey 统计量进行检验 : A-C 不显着,因此省略 B-C 检验 

○ 第三。按 C-E 和 C-D 的顺序使用 Tukey 统计量进行检验

○ 第 4。使用 Tukey 统计量检验 D-E

○ 如果不按大小排序,总共10次测试会出现10次Ⅰ型错误,即Ⅰ型错误膨胀 

○ 在上述情况下,情况稍好一些,因为仅出现了 8 次 Ⅰ 类错误 

③事后分析时的注意事项 

○ 示例


控制 神经抑制素 米托斯特
7 4 1
8 5 2
10 10 7 4
11 11 8 5

表 3. 事后分析示例


○ 结果


绘图

图 4. 事后分析中的注意事项


○ Control = Neurohib、Neurohib = Mitostop,但 Control ≠ Mitostop 的原因是Ⅰ型错误 

○ 示例 如果 A = B 的概率为 10%,B = C 为 10%,则 A = B = C 的概率为 1%,这是显着不同的



3。双向方差分析 

⑴概述 

① 定义 : 尝试对两个自变量、一个因变量进行方差分析

② 不仅每个因素的主效应值得关注,而且它们之间的相互作用也值得关注 

③假设

○ 正态性 : 总体服从正态分布

○ 独立性样本是从总体中随机抽取的 

○ 同方差 : 总体具有相同的方差

正交性 : 两个因素彼此不相关

○ 对正交性的满意与没有交互无关:理解概念上的差异是必要的。

⑵ 情况分类 


绘图

图5.双因素实验结果分类

⒜ 无温度影响;无湿度影响

⒝无温度影响;存在湿度影响

⒞ 存在温度影响;无湿度影响

⒟ 存在温度影响;存在湿度影响

⒠ 存在温度影响;存在湿度影响;存在的相互作用


⑶ 双向方差分析模型

① 在双向方差分析中应以不同方式计算随机效应的原因


绘图

图 6. 在双向方差分析中应以不同方式计算随机效应的原因


○情况 B2和B4是从因子B中随机提取的水平

○ 期望 : A 的主效应应该是不明确的

○现实由于随机抽样效应,A的主效应似乎是存在的

模型1.固定效应模型两个因子的水平是固定的


因素 平方和 自由度 平方均值 F 比  
  一个 SSA dfA = I-1 dfA = I-1 MSA = SSA ÷ dfA FA = MSA ÷ MSE
  SSB dfB = J-1 MSB = SSB ÷ dfB FB = MSB ÷ MSE  
  甲 × 乙 SSA×B dfA×B = (I-1)(J-1) MSA×B = SSA×B ÷ dfA×B FA×B = MSA×B ÷ MSE  
  误差(残差) SSE dfE = n-IJ dfE = n-IJ MSE = SSE ÷ dfE  
  总和 海温 n-1 n-1      


表4.固定效应建模结果表


模型2.随机效应建模两个因子的水平是随机的 


来源 平方和 自由度 均方 F 比  
一个 SS_A df_A = I - 1 MS_A = SS_A ÷ df_A F_A = MS_A ÷ MS_A×B  
SS_B df_B = J - 1 df_B = J - 1 MS_B = SS_B ÷ df_B F_B = MS_B ÷ MS_A×B
甲 × 乙 SS_A×B df_A×B = (I - 1)(J - 1) df_A×B = (I - 1)(J - 1) MS_A×B = SS_A×B ÷ df_A×B F_A×B = MS_A×B ÷ MS_E
误差(残差) SS_E df_E = n - IJ df_E = n - IJ MS_E = SS_E ÷ df_E  
总计 SS_T n - 1 n - 1    


表5.随机效应建模结果表


模型3.混合效应模型一个因子具有固定水平,另一个因子具有随机水平


因素 平方和 自由度 平方均值 F 비  
一个 SSA dfA = I-1 dfA = I-1 MSA = SSA ÷ dfA FA = MSA ÷ MSA×B
SSB dfB = J-1 MSB = SSB ÷ dfB FB = MSB ÷ MSE  
甲 × 乙 SSA×B dfA×B = (I-1)(J-1) MSA×B = SSA×B ÷ dfA×B FA×B = MSA×B ÷ MSE  
误差(残差) SSE dfE = n-IJ dfE = n-IJ MSE = SSE ÷ dfE  
总和 海温 n-1 n-1      


表6.混合效应建模结果表


○ A为固定效应,B为随机效应 

提示. 通过与下面的嵌套方差分析进行比较来理解 

⑷ 示例固定效应建模 


湿度(%) 温度(℃)      
20 30 40 40  
33 33 1 5 9  
2 6 10 10  
3 7 11 11  
66 66 9 13 17 17
10 10 14 14 18 18  
11 11 15 15 19 19  
99 99 17 17 21 21 25 25
18 18 22 22 26 26  
19 19 23 23 27 27  


表。 7. 双向方差分析示例


绘图


①定义


绘图


② 平方和 


绘图


③方差比的计算 


绘图


④ 结果表 


因素 平方和 自由度 平方均值 F 比 p值  
温度 288 288 2 144 144 144 144 8.43e-12 8.43e-12
湿度 1152 1152 2 576 576 576 576 < 2e-16  
温度×湿度 0 4 0 0 1  
误差(残差) 18 18 18 18 1      
总和 1464 1464 26 26        


表 8. 结果表


零假设 1. μ20℃ = μ30℃ = μ40℃ = μ : 拒绝该零假设,因为 p 值 = 8.43e-12 < 0.05 

零假设 2. μ33% = μ66% = μ99% = μ : 拒绝该零假设,因为 p 值 < 2e-16 < 0.05

零假设 3. 温度和湿度的相互作用 = 0: 不会拒绝该零假设,因为 p 值 = 1 

○ 【决定系数】(https://jb243.github.io/pages/1632) = 1 - 18 ÷ 1464 = 0.987704918 

○ 相关系数 = ± √ 0.987704918 = 0.993833445

○ 相关系数的符号根据斜率估计器的符号确定 

⑤ 交互作用掩盖了主效应,所以不要相信存在显着交互作用时的F值

○ 例如,如果A物质促进基因表达,B物质抑制基因表达,  

○ A物质和B物质同时处理时,基因表达无明显变化

○ 不过,A 和 B 都不是无效的。

应用1. 无需复制的测试

①概述

○ 单向方差分析不可能

○ 当实验群体数量不足或费用昂贵时使用

② 示例 


辐射水平 药品     平均  
普罗希布 睾丸块 控制      
81 81 76 76 79 79 78.67 78.67
中等 45 45 46 46 45 45 45.33  
28 28 27 27 27 27 27.33 27.33
平均 51.33 51.33 49.67 49.67 50.33 50.44 50.44


表 9. 不进行复制的测试示例


③ 结果表 


因素 平方和 自由度 平方均值 F 比 p值  
药品 4070.222 2 2035.111 2035.111 832.546 5.74e-06  
辐射 4.222 4.222 2 2.111 2.111 0.864 0.864 0.488 0.488
误差(残差) 9.778 9.778 4 2.444 2.444    
总和 4084.222 8        


表10.未重复检验的方差分析结果表


○ 没有重复的测试方差分析不应包含交互项

○ 如果包含交互项,则该项的残差自由度 = (RC - 1) - (R - 1 + C - 1 + (R - 1)(C - 1) = 0,因此无法计算F比

应用2.随机区组实验设计非重复方差分析的例子

①定义将区域划分为若干块后,每个块再次细分以实验不同的Factor


绘图

图 7. 随机区组实验设计


○ 双向方差分析是可能的 有两个因素;区域特定因素和治疗因素 » ○ 目的:通过分离区域特定因素来提高治疗统计结论的可靠性

② 流程

○ 第一第一。将整个区域划分为几个区域

○ 第二第二。为每个区域随机分配块号

○ 第三。每个块被分为与处理级别数一样多的子块

○ 第 4。随机分配每个子块上处理级别的位置

○ 第五th。对每个块中的每个处理重复测量

○ 第六th。具有统计显着性的块因子表明明显存在区域特定因子

○ 地区特定因素 地下水的存在、日光差异、地下矿脉的存在等

③结果


绘图


表11.随机区组实验设计的结果


应用3. 方差的嵌套分析 

模拟双向分析 现实中属于单向方差分析

② 示例

○ 问题情况


虾粮+维生素A   虾食品    
池塘 1 池塘 2 池塘 3 池塘 4  
30 60 80 110 110
35 35 65 65 85 85 115 115
45 45 75 75 95 95 125 125
50 50 80 100 100 130 130


表12.嵌套方差分析的情况


绘图

图8.嵌套方差分析的情况


○ F统计量的计算


因素 平方和 自由度 平方均值 F 比 p值  
饮食 10000.0 1 10000.0 5.556 5.556 0.143 0.143
池塘(饮食) 3600.0 3600.0 2 1800.0 21.600 21.600 0.000 0.000
误差(残差) 1000.0 1000.0 12 12 83.3 83.3    
总和 14600.0 14 14      


表13.嵌套方差分析中F统计量的计算


○实际计算计算10000、3600、1000时,右侧项数为16(对称性)


绘图


③ 类似于随机区组实验设计,但存在明显差异

区别1. 池塘1、池塘2、池塘3、池塘4不能划分为任何区块

差异2. 不满足正交性,这基本上是双向方差分析的假设 Diet 和 Pond(Diet) 不正交

差异3.自由度计算的差异:Pond(Diet)的自由度总共为2,其中Pond 1 ↔ Pond 2和Pond 3 ↔ Pond 4

○ 在上例中,如果您正在设计随机区组实验设计,则区组的自由度为 1

○ 随机区组实验设计增加了误差自由度,从而提高了F比(提高了检验的功效


绘图


○ 我们旨在设计随机区组实验设计而不是嵌套方差分析的原因 

差异 4. 像池塘 × 饮食一样计算,而不将池塘视为独立因素



输入时间:2019.11.16 17:36

results matching ""

    No results matching ""