Korean, Edit

统计摘要

推荐文章 【统计】【目录】(https://jb243.github.io/pages/1641)



1.数据、信息、知识

⑴ 数据 : 给定数据

⑵信息数据名称

⑶知识信息与信息之间的关系



2.比率标度、区间标度、序数标度、标称标度

⑴ 比例尺 存在绝对零点。比率概念存在。绝对零等

⑵ 间隔刻度 绝对零点不存在。比率概念不存在。摄氏温度等

⑶ 序数表 : 顺序概念

⑷ 名义量表 性别等



3。假设演绎法和数据科学之间的区别

⑴ 假设演绎法先设定假设,然后进行实验

⑵ 数据科学先进行实验,再提出假设



4。准确度和精确度

⑴ 准确度是样本均值与总体均值接近程度的概念

⑵ 精度是一个关于样本方差有多小的概念



5。混杂效应

⑴ 当第三个因素同时影响操纵变量和因变量时

⑵ 为什么相关性并不意味着因果关系



6。批次效应的含义

⑴ 不正确的重复实验

⑵ 当应用于批次的控制变量控制不当时,会导致错误的统计结论



7.观察实验和实验实验的意义

⑴ 观察实验是在不改变条件的情况下检验假设。应用于数据科学。

⑵ 实验 实验是通过改变条件来检验假设。适用于一般科学方法。



8.复制实验和复制测量之间的区别

⑴ 重复性实验与准确性有关。例如,在药物测试中测试多名患者。

⑵ 重复性测量与精度有关。例如,在药物测试中多次测试同一患者。



9。平均值和中位数的比较


图片


⑴ 左边是中位数,右边是平均数

⑵ 两边面积相对于中位数应相等



10。分位数与分位数图


图片



11。独立的含义

⑴ 一个变量不提供有关另一变量的信息

⑵ P(X = x, Y = y) = P(X = x) × P(Y = y)



12。中心极限定理

无论总体分布如何,样本均值的分布都遵循正态分布



13。卡方拟合优度检验


图片



14。卡方独立性检验


图片



15。 t 分布的特征

⑴ 与标准正态分布相比,T 分布是肥尾的



16。制定备择假设时的注意事项

⑴ 要有反驳的可能



17。参数测试与非参数测试

⑴ 参数测试

① 一般当样本分布服从正态分布时

② 通过参数计算p值

⑵ 非参数检验> ① 一般当样本分布不服从正态分布时

② 无参数计算p值



18。单尾测试的原因

⑴情况当有信心不偏向一侧时

⑵ 优点 可以减少II型错误

① II 类错误 当备择假设为真时拒绝原假设

② 从实验者的角度获得想要的结论的可能性

缺点1. 可能导致错误的统计结论:p值被低估

缺点2. 需要说服自己



19。实验设计:**鞋子实验

⑴ 左鞋和右鞋在形状和用途上有显着差异,如何比较是问题



20。实验设计

⑴问题是在遗传多样性组还是遗传统一组上进行实验

⑵ 答案 遗传多样性组

① 实践中,是遗传多样性组 遗传统一组得出的结论的有效性问题

② 通过事后检验可以得出有意义的结论 后续假设演绎法的应用



21。测试的力量

⑴ 提高功效意味着使用统计技术,其中 p 值较小而 α 恒定

示例1. T-分布具有更高的幂和更高的自由度

① 较高的自由度使t分布更接近正态分布

② 自由度越高,t 分布越窄,功率越高

示例 2. 双样本 t 检验的功效高于配对样本 t 检验

① 配对样本 t 检验 本质上是一个变量。自由度为 n-1

② 双样本 t 检验 两个变量。自由度为 n+m-2

③ t分布自由度的增加导致功效更高,因此双样本t检验的功效更高

示例 3. 在双样本 t 检验中,与没有等方差假设时相比,假设等方差会产生更高的功效

① 当存在等方差假设时,自由度


图片


② 不存在等方差假设时,自由度


图片


示例 4. 在回归分析中,F 检验比 t 检验具有更高的功效

示例 5. 对满足并行性假设的数据执行 ANCOVA 比比较数据中每条回归线的 y 截距具有更高的功效

① 比较y截距有一个样本组的样本量水平

② ANCOVA 使用整个误差项进行计算,因此样本量水平是一个样本组的两倍



22。当有多个组时不进行成对 t 检验的原因

由于第一类错误的累积,即使差异很小的组也可能被认为存在差异



23。方差分析假设

⑴ 正态性 所有数据均从遵循正态分布的总体中抽样

⑵ 独立性所有数据均从总体中独立抽样

⑶ 同方差性 所有数据,无论均值如何,均从具有相同方差的总体中抽样



24。稳健性的含义即使在异方差或非正态性的情况下,统计结论(接受或拒绝零假设)也不会随着大样本量或类别内重复测量而改变



25。线性相关的假设

⑴ 随机抽样数据

⑵ 每个变量都是从服从正态分布的总体中抽样的

⑶ 呈线性关系



26。相关分析和回归分析之间的差异

⑴相关性简单地表示变量之间的相关程度

⑵ 回归分析表明自变量与因变量之间的因果关系。由于目标是预测,因此并不一定证明实际的因果关系



27。回归模型的假设

⑴ 假设 Y 值是从满足正态性和同方差性的总体中测量的

⑵自变量X假设测量无误差实际中很难满足

⑶ 假设因变量由自变量决定

⑷ 假设X和Y之间的关系是线性的



28。多重共线性的含义

在多元线性回归中,两个或多个自变量具有很强的相关性,通过增加回归系数的标准误差而引起问题



29。 ANCOVA 的假设

⑴同方差性

⑵ 独立性

⑶ 常态

⑷ 协变量和因变量之间的线性

⑸ 并行性



30。 ANCOVA 中的步骤

⑴ 第一名。验证自变量和协变量之间的交互作用在统计上不显着

⑵ 第二第二。计算因变量的协变量的回归线

⑶ 第三第三。通过调整 y 截距以最小化平方和,计算自变量每个水平的回归线

⑷第4。根据各自的回归线计算每个级别内数据的残差

⑸第五th。根据整个组协变量的平均值计算每条回归线的函数值的标准化值

⑹第六th。显示每个级别高于和低于标准化值的残差

⑺7th。对调整后的数据执行方差分析



31。并行性的含义

⑴ 例如,计算污染矿区和非污染区回归线时,是指假设斜率相同

⑵ 如果不满足并行性,则比较选定值(例如总体平均年龄)的差异不能代表协变量的整个范围



32。为什么机器学习中应避免过度拟合

⑴ 过度拟合会包含样本中的不准确性,导致预测准确性降低

⑵ 在实际的机器学习中,每一步都会故意引入错误



输入 2019-12-10 00:07

results matching ""

    No results matching ""