第 5 章.统计数量
高级类别:【统计】【统计概述】(https://jb243.github.io/pages/1641)
1. 期望值
2. 标准差
3. 协方差和相关系数
4. 安斯科姆四重奏
5. 序数统计
6. 条件统计
a. SSIM
b. 【距离函数和相似度】(https://jb243.github.io/pages/879)
1.预期值
⑴定义:随机变量X的期望值,即E(X),是执行结果平均得到的X值
①离散随机变量
②连续随机变量
⑵ 联合概率分布函数
①离散随机变量
②连续概率变量
⑶ 期望值的性质
① 线性:E(aX + bY + c) = aE(X) + bE(Y) + c
② 如果 X 和 Y 独立,则 E(XY) = E(X) × E(Y)
⑷ 示例
① X: 如果混合n顶帽子并提取一顶且不放回,则正确找到自己帽子的人数
②问题目的:获得p(X)后很难计算E(X)
③ X = X1 + ··· + Xn。 Xi:如果第i个人找到了他的帽子,则值为1,如果不是0
④ 方法 1. 病例数
⑤ 方法2. 当第i个人第一次提取与否时,基于对称性,期望值是一致的。
⑸ 柯西分布:期望值未定义
⑹【预期问题示例值](https://blog.kakaocdn.net/dn/lMmnD/btsLCogwUDR/7au6mEcSxCVAA57mmBg681/%E1%84%80%E1%85%B5%E1%8 4%83%E1%85%A2%E1%86%BA%E1%84%80%E1%85%A1%E1%86%B9%2022%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)
2.标准差
⑴ 偏差
① 定义: D = X - E(X)
② 特性1. E(D) = E(X - E(X)) = E(X) - E(X) = 0
⑵ 方差
①定义:当E(X) = μ时,VAR(X) = E((X - μ)2) = E(D2)
② 特征1. VAR(X) = E(X2) - μ2
○ 证明: VAR(X) = E((X - μ)2) = E(X2) - 2μE(X) + μ2 = E(X2) - 2μ2 + μ2 = E(X2) - μ2
③ 特征2. VAR(aX + b) = a2 VAR(X)
④ 特性3.协方差介绍: VAR(X + Y) = VAR(X) + VAR(Y) + 2 COV(X, Y)
○ 由 R.A. 创建费舍尔于 1936 年。
○ 证明
○ 概括
○ 线性:当 X 和 Y 独立时,VAR(X + Y) = VAR(X) + VAR(Y)
○ 协方差的定义:给定一个不重叠的数据集(x1, y1),…,(xn, yn),x和y的协方差如下
○ 如果允许冗余,则协方差的定义修改如下,引入样本比 pi:如果 yi = xi,则协方差 = 方差
○ 二维协方差矩阵 Σ (其中 x = (x1, x2)T = (x, y)T)
○ Σ = E[(x-E[x])(x-E[x])T] 不仅对于二维成立,对于 n 维也成立。
⑤ 特征4. VAR(X) = 0 ⇔ P(X = 常数) = 1 (∵ 切比雪夫不等式)
⑥ 问题示例方差
⑶ 标准差
① 定义:X 的标准差,即 σ 或 SD(X) = √ VAR(X) ⇔ σ2 = VAR(X)
②思路:X和方差单位不同,但X和标准差单位相同
③ 特点:方差和σ总是非负的。协方差可以有负值
⑷ 变异系数(CV)
① 标准差除以平均值
② 用于比较不同计量单位数据的分散程度
⑸ MAD(平均绝对偏差)
① 关于平均值或中位数 x̄,
3。协方差和相关系数
⑴ 协方差
①定义:关于E(X) = μx , E(Y) = μy,
○ COV(X, Y) = σxy = E{(X - μx)(Y - μy)}
②含义:当X变化时,Y的变化程度
③ 特性1. COV(X, Y) = E(XY) - E(X)E(Y)
○ 证明:COV(X, Y) = E((X - μx)(Y - μy)) = E(XY) - μxE(Y) - μyE(X) + μxμy = E(XY) - μxμy
④ 特征 2. 如果 X = Y,COV(X, Y) = VAR(X)
⑤ 特征3. 如果X和Y独立,则COV(X, Y) = 0
○ 证明: COV(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0
○ 因为独立性是一个更严格的条件,即使COV(X,Y) = 0,也不能得出X和Y独立的结论
⑥ 特征4. COV(aX + b, cY + d) = ac COV(X, Y)
⑦ 特性5. COV(a1 X1 + a2 X2, Y) = a1 COV(X1, Y) + a2 COV(X2, Y)
⑧ 局限性:根据特征4,协方差同时包含关联和大小信息,所以不能只说关联 > ⑨ 示例问题协方差
⑩【高级示例问题协方差](https://blog.kakaocdn.net/dn/bK76n6/btsLKqSX5HA/vRvMpff8CGHcDMsNpFxSi1/%E1%84%80%E1%85%A9%E1%86%BC%E1%84%87%E1%85%AE%E1%86% AB%E1%84%89%E1%85%A1%E1%86%AB%20%E1%84%8B%E1%85%B3%E1%86%BC%E1%84%8B %E1%85%AD%E1%86%BC%209%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)
⑵相关系数:也称皮尔逊相关系数
① 定义: 关于标准差 X 和 Y,即 σx、σy,每个,
○ 多重相关系数:存在三个或三个以上变量时相关系数的表示
○ 完全相关:ρ = 1
○ 无相关性:ρ = 0
② 背景:仅显示除尺寸信息之外的关联信息。与协方差的限制有关
③ 特点
○ 在区间或比率尺度上测量的两个变量之间的相关性。
○ 针对连续变量。
○ 常态假设。
○ 在大多数情况下广泛使用。
④ 特征1. -1 ≤ ρ(X, Y) ≤ 1(相关不等式)
○证明:【柯西-施瓦茨不等式】(https://jb243.github.io/pages/1594)
○ ρ(X, Y) = 1: X 和 Y 完全成比例
○ ρ(X, Y) = -1: X 和 Y 的完全反比关系
○ ρ(X, Y) = 0 并不意味着 X 和 Y 独立
○ 例外 1. p(x) = ⅓ I{x = -1, 0, 1} , Y = X2
○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) - E(X3) = 0
○ 因为 p(1, 1) = ⅓、p(x = 1) = ⅓、p(y = 1) = ⅔、p(x, y) ≠ p(x) × p(y)
○ 对独立性定义的分歧
○ 例外 2。 S ={(x, y) | -1 ≤ x ≤ 1,x2 ≤ y ≤ x2 + 1/10},p = 5 I {(x, y) ∈ S}
○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) = 0
○ 在独立性的定义中,应满足常数 = p(x, y) = p(x) × p(y)。然而,p(y) 不是常数
○ 对独立性定义的分歧
⑤ 特征2. ρ(X, X) = 1, ρ(X, -X) = -1
⑥ 特征3. ρ(X, Y) = ρ(Y, X)
⑦ 特征4.排除尺寸信息: ρ(aX + b, cY + d) = ρ(X, Y)
○ 证明: ρ(aX + b, cY + d) = COV(aX + b, cY + d) ÷ aσx ÷ cσy = COV(X, Y) ÷ σxσy = ρ(X, Y)
⑧ 特征5.关联信息: | ρ(X, Y) | = 1 且 Y = aX + b,(a ≠ 0,b 常数)是充要条件
○ 前进方向证明: 设置Z的想法来自于【简单回归分析】(https://jb243.github.io/pages/1632)
○ 奖励方向证明
⑨【相关系数统计估计】(https://jb243.github.io/pages/1630)
○ 零假设 H0:相关系数 = 0
○ 备择假设 H1:相关系数 ≠ 0
○计算t统计量:关于从样本中得到的相关系数r,
» ○ 上述统计遵循自由度为n-2的学生t分布(假设样本数为n)
⑩ 【R Studio中的计算】(http://www.sthda.com/english/wiki/correlation-test- Between-two-variables-in-r#:~:text=Compute%20correlation%20in%20R-,R%20functions,-Correlation%20coefficient%20can)
○
cor(x, y)
○ 受保护_1
○ 受保护_2
○ 受保护_3
⑶ 斯皮尔曼相关系数
①定义:关于x’=rank(x)和y’=rank(x),
② 特点
○ 一种测量序数尺度的两个变量之间相关性的方法。
○ 针对序数变量的非参数方法。
○ 在有很多联系(零)的数据中具有优势。
○ 对数据中的偏差或错误敏感。
○ 往往会产生比 Kendall 相关系数更高的值。
③ 特征1. 关于两个多维变量的秩差d1, d2,···
④ 特征2. 给定独立的(X1, Y1), X2, Y3,
⑤ 【R Studio中的计算】(http://www.sthda.com/english/wiki/correlation-test- Between-two-variables-in-r#:~:text=Compute%20correlation%20in%20R-,R%20functions,-Correlation%20coefficient%20can)
○ 受保护_4
○
cor.test(x, y, method = "spearman")
⑷肯德尔相关系数
①定义:关于一致对和不一致对的定义
② 特点
○ 一种测量序数尺度的两个变量之间相关性的方法。
○ 针对序数变量的非参数方法。
○ 在有很多联系(零)的数据中具有优势。
○ 当样本量较小或数据中有许多关联值时很有用。
③ 程序
○ 步骤 1. 对 x 值按升序对 y 值进行排序
○ 步骤 2. 对于每个 yi,计算 yj > yi 的一致对的数量(假设 j > i)
○ 步骤3. 对于每个yi,计算其中yj < yi 的不一致对的数量(假设j > i)
○ 步骤4. 定义相关系数如下:
○ nc: 一致对总数
○ nd: 不一致对的总数
○ n: x 和 y 的大小
○ 肯德尔相关系数样本
④ 【R Studio中的计算】(http://www.sthda.com/english/wiki/correlation-test- Between-two-variables-in-r#:~:text=Compute%20correlation%20in%20R-,R%20functions,-Correlation%20coefficient%20can)
○ 受保护_6
○
cor.test(x, y, method = "kendall")
⑸ 马太相关系数(MCC)
⑹ χ2:近似值适用性的度量
① 若测量数据为xm、ym,近似函数为f(x)
② 求近似函数时,通过χ2的微分计算无穷小点。> ③ 用于二次逼近函数等非线性回归
⑺ 能源统计
① Székely、Rizzo 和 Bakirov 于 2007 年提出
② 距离协方差 V(X,Y) 和距离相关性 V(X,Y) / √V((X,X)·V(Y,Y))
4。安斯科姆四重奏
⑴表明均值、标准差和相关系数不能描述给定数据的形状
⑵ 示例1
图 1. Anscombe 四重奏示例
⑶ 示例2
图 2. Anscombe 四重奏的第二个示例
5。序数统计
⑴ 概述
① 假设:Xi 和 Xj 独立
② 定义:通过重新排列 X1、…、Xn,将 Yi 设为 Y1 < ··· < Yn
⑵ 统计
① 联合概率分布
② 边际概率分布
③ 期望值
⑶ 【订单问题举例统计](https://blog.kakaocdn.net/dn/GvY4O/btsLKbNWEPz/qCFSVKa0N3PNR9rH8c4AD1/%E1%84%89%E1%85%AE%E1%86%AB%E1%84%89%E1%85% A5%E1%84%90%E1%85%A9%E1%86%BC%E1%84%80%E1%85%A8%E1%84%85%E1%85%A3%E1%86%BC%2018%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)
①题型:询问n个值中的最大值或最小值的分布和统计,或者k阶统计量的分布。
② 示例 1: 从 [0, 1] 上的均匀分布中抽取大小为 3 的随机样本。计算样本最大值大于0.7的概率。
○ 解决方案
Pr(Y > 0.7) = 1 - (Pr(X ≤ 0.7))3 = 1 - 0.73 = 0.657
③ 示例 2: X 服从均值为 1 的指数分布。抽取大小为 3 的样本。计算三个值的中位数的期望值。
○ 解决方案
fY(x) = (3!/ 1!1!1!)·(1 - e-x)·e-x·e-x = 6(e-2x - e-3x)
∴ E[Y] = ∫0 到 ∞ 6x(e-2x - e-3x) dx = 5/6
6。条件统计
⑴ 条件期望
① 定义
② 特点
○ E(XY | Y) = YE(X | Y)
○ E(aX1 + bX2 | Y) = aE(X1 | Y) + b(X2 | Y)
③ 迭代期望定律(塔性质)
○ 引理
○ 证明
○ 示例
当随机选择Y在[0, ℓ]处的点作为均匀分布,然后在X上随机选择在[0, y]处的点作为均匀分布时,
④ 平均独立性
○ 独立性 ⊂ 平均独立性 ⊂ 不相关性» ○ 独立性一般
○ 不相关性:如果相关系数为0
○ 正态分布:如果 X 和 Y 共同正态且不相关,则 X 和 Y 独立
⑤【简单回归分析】(https://jb243.github.io/pages/1632)
⑵条件方差
①定义:Y对于给定概率变量X的条件方差
② 总方差定律(方差分解)
○ 引理
○ 证明
○ 含义
○ 情况:当 X ~ P1(θ), Y ~ P2(X)
○ 使用 P2 计算 VAR(Y | X) 和 E(Y | X)
○ 使用 P1 计算 E{·}, VAR{·}
○ E(VAR(X | Y)):组内方差
○ VAR(E(X | Y)):组间方差
○ 示例 1.
○ X:下岗职工失业期
○ X 的概率密度函数:指数分布
○ 劳动力总数的 20%: 熟练劳动力。 λ = 0.4
○ 劳动力总数的 80%: 非技术工人。 λ = 0.1
○ VAR(X) 的计算
○ 示例 2.
○ 问题:设 P 为续保汽车保单的投保人比例。 P 因代理而异。 P 遵循均值 0.8、方差 0.25 的 beta 分布。从保险公司的所有投保人中选出 10 名投保人。令 N 为更新汽车保单的投保人数量。计算 Var[N]。
○ 解: Var[N] = E[Var[N | P]] + Var[E[N | P]] = E[10P(1-P)] + Var[10P] = 10E[P] - 10E[P2] + 100Var[P] = 24.1
○ 注意:P1、P2、···、P10 的分布不是完全独立的,因为它们来自同一分布。因此,Var[N] ≠ Σi Var[P<sub>i</sub>]。
输入:2019.06.17 14:15