统计摘要

推荐文章：【统计】【目录】(https://jb243.github.io/pages/1641)

1.数据、信息、知识

⑴ 数据 : 给定数据

⑵信息：数据名称

⑶知识：信息与信息之间的关系

2.比率标度、区间标度、序数标度、标称标度

⑴ 比例尺：存在绝对零点。比率概念存在。绝对零等

⑵ 间隔刻度：绝对零点不存在。比率概念不存在。摄氏温度等

⑶ 序数表 : 顺序概念

⑷ 名义量表：性别等

3。假设演绎法和数据科学之间的区别

⑴ 假设演绎法先设定假设，然后进行实验

⑵ 数据科学先进行实验，再提出假设

4。准确度和精确度

⑴ 准确度是样本均值与总体均值接近程度的概念

⑵ 精度是一个关于样本方差有多小的概念

5。混杂效应

⑴ 当第三个因素同时影响操纵变量和因变量时

⑵ 为什么相关性并不意味着因果关系

6。批次效应的含义

⑴ 不正确的重复实验

⑵ 当应用于批次的控制变量控制不当时，会导致错误的统计结论

7.观察实验和实验实验的意义

⑴ 观察实验是在不改变条件的情况下检验假设。应用于数据科学。

⑵ 实验实验是通过改变条件来检验假设。适用于一般科学方法。

8.复制实验和复制测量之间的区别

⑴ 重复性实验与准确性有关。例如，在药物测试中测试多名患者。

⑵ 重复性测量与精度有关。例如，在药物测试中多次测试同一患者。

9。平均值和中位数的比较

⑴ 左边是中位数，右边是平均数

⑵ 两边面积相对于中位数应相等

10。分位数与分位数图

11。独立的含义

⑴ 一个变量不提供有关另一变量的信息

⑵ P(X = x, Y = y) = P(X = x) × P(Y = y)

12。中心极限定理

无论总体分布如何，样本均值的分布都遵循正态分布

13。卡方拟合优度检验

14。卡方独立性检验

15。 t 分布的特征

⑴ 与标准正态分布相比，T 分布是肥尾的

16。制定备择假设时的注意事项

⑴ 要有反驳的可能

17。参数测试与非参数测试

⑴ 参数测试

① 一般当样本分布服从正态分布时

② 通过参数计算p值

⑵ 非参数检验> ① 一般当样本分布不服从正态分布时

② 无参数计算p值

18。单尾测试的原因

⑴情况：当有信心不偏向一侧时

⑵ 优点：可以减少II型错误

① II 类错误：当备择假设为真时拒绝原假设

② 从实验者的角度获得想要的结论的可能性

⑶ 缺点1. 可能导致错误的统计结论：p值被低估

⑷ 缺点2. 需要说服自己

19。实验设计：**鞋子实验

⑴ 左鞋和右鞋在形状和用途上有显着差异，如何比较是问题

20。实验设计

⑴问题：是在遗传多样性组还是遗传统一组上进行实验

⑵ 答案：遗传多样性组

① 实践中，是遗传多样性组：遗传统一组得出的结论的有效性问题

② 通过事后检验可以得出有意义的结论：后续假设演绎法的应用

21。测试的力量

⑴ 提高功效意味着使用统计技术，其中 p 值较小而 α 恒定

⑵ 示例1. T-分布具有更高的幂和更高的自由度

① 较高的自由度使t分布更接近正态分布

② 自由度越高，t 分布越窄，功率越高

⑶ 示例 2. 双样本 t 检验的功效高于配对样本 t 检验

① 配对样本 t 检验：本质上是一个变量。自由度为 n-1

② 双样本 t 检验：两个变量。自由度为 n+m-2

③ t分布自由度的增加导致功效更高，因此双样本t检验的功效更高

⑷ 示例 3. 在双样本 t 检验中，与没有等方差假设时相比，假设等方差会产生更高的功效

① 当存在等方差假设时，自由度

② 不存在等方差假设时，自由度

⑸ 示例 4. 在回归分析中，F 检验比 t 检验具有更高的功效

⑹ 示例 5. 对满足并行性假设的数据执行 ANCOVA 比比较数据中每条回归线的 y 截距具有更高的功效

① 比较y截距有一个样本组的样本量水平

② ANCOVA 使用整个误差项进行计算，因此样本量水平是一个样本组的两倍

22。当有多个组时不进行成对 t 检验的原因

由于第一类错误的累积，即使差异很小的组也可能被认为存在差异

23。方差分析假设

⑴ 正态性：所有数据均从遵循正态分布的总体中抽样

⑵ 独立性：所有数据均从总体中独立抽样

⑶ 同方差性：所有数据，无论均值如何，均从具有相同方差的总体中抽样

24。稳健性的含义即使在异方差或非正态性的情况下，统计结论（接受或拒绝零假设）也不会随着大样本量或类别内重复测量而改变

25。线性相关的假设

⑴ 随机抽样数据

⑵ 每个变量都是从服从正态分布的总体中抽样的

⑶ 呈线性关系

26。相关分析和回归分析之间的差异

⑴相关性简单地表示变量之间的相关程度

⑵ 回归分析表明自变量与因变量之间的因果关系。由于目标是预测，因此并不一定证明实际的因果关系

27。回归模型的假设

⑴ 假设 Y 值是从满足正态性和同方差性的总体中测量的

⑵自变量X假设测量无误差：实际中很难满足

⑶ 假设因变量由自变量决定

⑷ 假设X和Y之间的关系是线性的

28。多重共线性的含义

在多元线性回归中，两个或多个自变量具有很强的相关性，通过增加回归系数的标准误差而引起问题

29。 ANCOVA 的假设

⑴同方差性

⑵ 独立性

⑶ 常态

⑷ 协变量和因变量之间的线性

⑸ 并行性

30。 ANCOVA 中的步骤

⑴ 第一名。验证自变量和协变量之间的交互作用在统计上不显着

⑵ 第二^第二。计算因变量的协变量的回归线

⑶ 第三^第三。通过调整 y 截距以最小化平方和，计算自变量每个水平的回归线

⑷第4^次。根据各自的回归线计算每个级别内数据的残差

⑸第五^th。根据整个组协变量的平均值计算每条回归线的函数值的标准化值

⑹第六^th。显示每个级别高于和低于标准化值的残差

⑺7^th。对调整后的数据执行方差分析

31。并行性的含义

⑴ 例如，计算污染矿区和非污染区回归线时，是指假设斜率相同

⑵ 如果不满足并行性，则比较选定值（例如总体平均年龄）的差异不能代表协变量的整个范围

32。为什么机器学习中应避免过度拟合

⑴ 过度拟合会包含样本中的不准确性，导致预测准确性降低

⑵ 在实际的机器学习中，每一步都会故意引入错误

输入： 2019-12-10 00:07

6774