统计摘要
推荐文章: 【统计】【目录】(https://jb243.github.io/pages/1641)
1.数据、信息、知识
⑴ 数据 : 给定数据
⑵信息:数据名称
⑶知识:信息与信息之间的关系
2.比率标度、区间标度、序数标度、标称标度
⑴ 比例尺 : 存在绝对零点。比率概念存在。绝对零等
⑵ 间隔刻度: 绝对零点不存在。比率概念不存在。摄氏温度等
⑶ 序数表 : 顺序概念
⑷ 名义量表: 性别等
3。假设演绎法和数据科学之间的区别
⑴ 假设演绎法先设定假设,然后进行实验
⑵ 数据科学先进行实验,再提出假设
4。准确度和精确度
⑴ 准确度是样本均值与总体均值接近程度的概念
⑵ 精度是一个关于样本方差有多小的概念
5。混杂效应
⑴ 当第三个因素同时影响操纵变量和因变量时
⑵ 为什么相关性并不意味着因果关系
6。批次效应的含义
⑴ 不正确的重复实验
⑵ 当应用于批次的控制变量控制不当时,会导致错误的统计结论
7.观察实验和实验实验的意义
⑴ 观察实验是在不改变条件的情况下检验假设。应用于数据科学。
⑵ 实验 实验是通过改变条件来检验假设。适用于一般科学方法。
8.复制实验和复制测量之间的区别
⑴ 重复性实验与准确性有关。例如,在药物测试中测试多名患者。
⑵ 重复性测量与精度有关。例如,在药物测试中多次测试同一患者。
9。平均值和中位数的比较
⑴ 左边是中位数,右边是平均数
⑵ 两边面积相对于中位数应相等
10。分位数与分位数图
11。独立的含义
⑴ 一个变量不提供有关另一变量的信息
⑵ P(X = x, Y = y) = P(X = x) × P(Y = y)
12。中心极限定理
无论总体分布如何,样本均值的分布都遵循正态分布
13。卡方拟合优度检验
14。卡方独立性检验
15。 t 分布的特征
⑴ 与标准正态分布相比,T 分布是肥尾的
16。制定备择假设时的注意事项
⑴ 要有反驳的可能
17。参数测试与非参数测试
⑴ 参数测试
① 一般当样本分布服从正态分布时
② 通过参数计算p值
⑵ 非参数检验> ① 一般当样本分布不服从正态分布时
② 无参数计算p值
18。单尾测试的原因
⑴情况:当有信心不偏向一侧时
⑵ 优点: 可以减少II型错误
① II 类错误 : 当备择假设为真时拒绝原假设
② 从实验者的角度获得想要的结论的可能性
⑶ 缺点1. 可能导致错误的统计结论:p值被低估
⑷ 缺点2. 需要说服自己
19。实验设计:**鞋子实验
⑴ 左鞋和右鞋在形状和用途上有显着差异,如何比较是问题
20。实验设计
⑴问题:是在遗传多样性组还是遗传统一组上进行实验
⑵ 答案: 遗传多样性组
① 实践中,是遗传多样性组: 遗传统一组得出的结论的有效性问题
② 通过事后检验可以得出有意义的结论 : 后续假设演绎法的应用
21。测试的力量
⑴ 提高功效意味着使用统计技术,其中 p 值较小而 α 恒定
⑵ 示例1. T-分布具有更高的幂和更高的自由度
① 较高的自由度使t分布更接近正态分布
② 自由度越高,t 分布越窄,功率越高
⑶ 示例 2. 双样本 t 检验的功效高于配对样本 t 检验
① 配对样本 t 检验 : 本质上是一个变量。自由度为 n-1
② 双样本 t 检验 : 两个变量。自由度为 n+m-2
③ t分布自由度的增加导致功效更高,因此双样本t检验的功效更高
⑷ 示例 3. 在双样本 t 检验中,与没有等方差假设时相比,假设等方差会产生更高的功效
① 当存在等方差假设时,自由度
② 不存在等方差假设时,自由度
⑸ 示例 4. 在回归分析中,F 检验比 t 检验具有更高的功效
⑹ 示例 5. 对满足并行性假设的数据执行 ANCOVA 比比较数据中每条回归线的 y 截距具有更高的功效
① 比较y截距有一个样本组的样本量水平
② ANCOVA 使用整个误差项进行计算,因此样本量水平是一个样本组的两倍
22。当有多个组时不进行成对 t 检验的原因
由于第一类错误的累积,即使差异很小的组也可能被认为存在差异
23。方差分析假设
⑴ 正态性 : 所有数据均从遵循正态分布的总体中抽样
⑵ 独立性:所有数据均从总体中独立抽样
⑶ 同方差性 : 所有数据,无论均值如何,均从具有相同方差的总体中抽样
24。稳健性的含义即使在异方差或非正态性的情况下,统计结论(接受或拒绝零假设)也不会随着大样本量或类别内重复测量而改变
25。线性相关的假设
⑴ 随机抽样数据
⑵ 每个变量都是从服从正态分布的总体中抽样的
⑶ 呈线性关系
26。相关分析和回归分析之间的差异
⑴相关性简单地表示变量之间的相关程度
⑵ 回归分析表明自变量与因变量之间的因果关系。由于目标是预测,因此并不一定证明实际的因果关系
27。回归模型的假设
⑴ 假设 Y 值是从满足正态性和同方差性的总体中测量的
⑵自变量X假设测量无误差:实际中很难满足
⑶ 假设因变量由自变量决定
⑷ 假设X和Y之间的关系是线性的
28。多重共线性的含义
在多元线性回归中,两个或多个自变量具有很强的相关性,通过增加回归系数的标准误差而引起问题
29。 ANCOVA 的假设
⑴同方差性
⑵ 独立性
⑶ 常态
⑷ 协变量和因变量之间的线性
⑸ 并行性
30。 ANCOVA 中的步骤
⑴ 第一名。验证自变量和协变量之间的交互作用在统计上不显着
⑵ 第二第二。计算因变量的协变量的回归线
⑶ 第三第三。通过调整 y 截距以最小化平方和,计算自变量每个水平的回归线
⑷第4次。根据各自的回归线计算每个级别内数据的残差
⑸第五th。根据整个组协变量的平均值计算每条回归线的函数值的标准化值
⑹第六th。显示每个级别高于和低于标准化值的残差
⑺7th。对调整后的数据执行方差分析
31。并行性的含义
⑴ 例如,计算污染矿区和非污染区回归线时,是指假设斜率相同
⑵ 如果不满足并行性,则比较选定值(例如总体平均年龄)的差异不能代表协变量的整个范围
32。为什么机器学习中应避免过度拟合
⑴ 过度拟合会包含样本中的不准确性,导致预测准确性降低
⑵ 在实际的机器学习中,每一步都会故意引入错误
输入: 2019-12-10 00:07