Korean, Edit

第 5 章.统计数量

高级类别:【统计】【统计概述】(https://jb243.github.io/pages/1641)


1. 期望值 

2. 标准差  

3. 协方差和相关系数  

4. 安斯科姆四重奏  

5. 序数统计

6. 条件统计


a. SSIM

b. 【距离函数和相似度】(https://jb243.github.io/pages/879)



1.预期值

⑴定义:随机变量X的期望值,即E(X),是执行结果平均得到的X值

①离散随机变量


图片


②连续随机变量


图片


⑵ 联合概率分布函数

①离散随机变量


图片


②连续概率变量


图片

图片


⑶ 期望值的性质

① 线性:E(aX + bY + c) = aE(X) + bE(Y) + c

② 如果 X 和 Y 独立,则 E(XY) = E(X) × E(Y)


图片


⑷ 示例

① X: 如果混合n顶帽子并提取一顶且不放回,则正确找到自己帽子的人数

②问题目的获得p(X)后很难计算E(X)

③ X = X1 + ··· + Xn。  Xi:如果第i个人找到了他的帽子,则值为1,如果不是0

方法 1. 病例数


图片


方法2. 当第i个人第一次提取与否时,基于对称性,期望值是一致的。


图片


⑸ 柯西分布期望值未定义


图片


⑹【预期问题示例值](https://blog.kakaocdn.net/dn/lMmnD/btsLCogwUDR/7au6mEcSxCVAA57mmBg681/%E1%84%80%E1%85%B5%E1%8 4%83%E1%85%A2%E1%86%BA%E1%84%80%E1%85%A1%E1%86%B9%2022%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)



2.标准差

⑴ 偏差

① 定义 D = X - E(X)

特性1. E(D) = E(X - E(X)) = E(X) - E(X) = 0 

⑵ 方差

①定义:当E(X) = μ时,VAR(X) = E((X - μ)2) = E(D2)

特征1. VAR(X) = E(X2) - μ2

○ 证明: VAR(X) = E((X - μ)2) = E(X2) - 2μE(X) + μ2 = E(X2) - 2μ2 + μ2 = E(X2) - μ2

特征2. VAR(aX + b) = a2 VAR(X)


图片


特性3.协方差介绍 VAR(X + Y) = VAR(X) + VAR(Y) + 2 COV(X, Y)

○ 由 R.A. 创建费舍尔于 1936 年。

○ 证明


图片


○ 概括


图片


○ 线性:当 X 和 Y 独立时,VAR(X + Y) = VAR(X) + VAR(Y)

○ 协方差的定义:给定一个不重叠的数据集(x1, y1),…,(xn, yn),x和y的协方差如下


图片


○ 如果允许冗余,则协方差的定义修改如下,引入样本比 pi:如果 yi = xi,则协方差 = 方差


图片


○ 二维协方差矩阵 Σ (其中 x = (x1, x2)T = (x, y)T)


图片


○ Σ = E[(x-E[x])(x-E[x])T] 不仅对于二维成立,对于 n 维也成立。

特征4. VAR(X) = 0 ⇔ P(X = 常数) = 1 ( 切比雪夫不等式)


图片


问题示例方差

⑶ 标准差

① 定义:X 的标准差,即 σ 或 SD(X) = √ VAR(X) ⇔ σ2 = VAR(X) 

②思路:X和方差单位不同,但X和标准差单位相同 

③ 特点:方差和σ总是非负的。协方差可以有负值 

⑷ 变异系数(CV)

① 标准差除以平均值

② 用于比较不同计量单位数据的分散程度

⑸ MAD(平均绝对偏差)

① 关于平均值或中位数 x̄,


스크린샷 2025-03-28 오후 4 46 36



3。协方差和相关系数 

⑴ 协方差 

①定义关于E(X) = μx , E(Y) = μy, 

○ COV(X, Y) = σxy = E{(X - μx)(Y - μy)}

②含义:当X变化时,Y的变化程度

特性1. COV(X, Y) = E(XY) - E(X)E(Y)

○ 证明:COV(X, Y) = E((X - μx)(Y - μy)) = E(XY) - μxE(Y) - μyE(X) + μxμy = E(XY) - μxμy

特征 2. 如果 X = Y,COV(X, Y) = VAR(X)

特征3. 如果X和Y独立,则COV(X, Y) = 0

○ 证明 COV(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0

○ 因为独立性是一个更严格的条件,即使COV(X,Y) = 0,也不能得出X和Y独立的结论

特征4. COV(aX + b, cY + d) = ac COV(X, Y)

特性5. COV(a1 X1 + a2 X2, Y) = a1 COV(X1, Y) + a2 COV(X2, Y)

⑧ 局限性:根据特征4,协方差同时包含关联和大小信息,所以不能只说关联 > ⑨ 示例问题协方差

⑩【高级示例问题协方差](https://blog.kakaocdn.net/dn/bK76n6/btsLKqSX5HA/vRvMpff8CGHcDMsNpFxSi1/%E1%84%80%E1%85%A9%E1%86%BC%E1%84%87%E1%85%AE%E1%86% AB%E1%84%89%E1%85%A1%E1%86%AB%20%E1%84%8B%E1%85%B3%E1%86%BC%E1%84%8B %E1%85%AD%E1%86%BC%209%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)

⑵相关系数也称皮尔逊相关系数

① 定义 关于标准差 X 和 Y, σx、σy,每个, 


图片


○ 多重相关系数:存在三个或三个以上变量时相关系数的表示

○ 完全相关:ρ = 1

○ 无相关性:ρ = 0

② 背景:仅显示除尺寸信息之外的关联信息。与协方差的限制有关 

③ 特点

○ 在区间或比率尺度上测量的两个变量之间的相关性。

○ 针对连续变量。

○ 常态假设。

○ 在大多数情况下广泛使用。

特征1. -1 ≤ ρ(X, Y) ≤ 1(相关不等式)

○证明:【柯西-施瓦茨不等式】(https://jb243.github.io/pages/1594) 


스크린샷 2025-03-31 오후 10 40 04


○ ρ(X, Y) = 1: X 和 Y 完全成比例

○ ρ(X, Y) = -1: X 和 Y 的完全反比关系

○ ρ(X, Y) = 0 并不意味着 X 和 Y 独立

例外 1. p(x) = ⅓ I{x = -1, 0, 1} , Y = X2

○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) - E(X3) = 0 

○ 因为 p(1, 1) = ⅓、p(x = 1) = ⅓、p(y = 1) = ⅔、p(x, y) ≠ p(x) × p(y) 

○ 对独立性定义的分歧

例外 2。 S ={(x, y) | -1 ≤ x ≤ 1,x2 ≤ y ≤ x2 + 1/10},p = 5 I {(x, y) ∈ S} 

○ COV(X, Y) = E(XY) - E(X)E(Y) = E(XY) = 0

○ 在独立性的定义中,应满足常数 = p(x, y) = p(x) × p(y)。然而,p(y) 不是常数

○ 对独立性定义的分歧

特征2. ρ(X, X) = 1, ρ(X, -X) = -1

特征3. ρ(X, Y) = ρ(Y, X)

特征4.排除尺寸信息 ρ(aX + b, cY + d) = ρ(X, Y)

○ 证明: ρ(aX + b, cY + d) = COV(aX + b, cY + d) ÷ aσx ÷ cσy = COV(X, Y) ÷ σxσy = ρ(X, Y)

特征5.关联信息 | ρ(X, Y) | = 1 且 Y = aX + b,(a ≠ 0,b 常数)是充要条件

○ 前进方向证明 设置Z的想法来自于【简单回归分析】(https://jb243.github.io/pages/1632)


图片


○ 奖励方向证明 


图片


⑨【相关系数统计估计】(https://jb243.github.io/pages/1630)

○ 零假设 H0:相关系数 = 0

○ 备择假设 H1:相关系数 ≠ 0

○计算t统计量关于从样本中得到的相关系数r,


图片


» ○ 上述统计遵循自由度为n-2的学生t分布(假设样本数为n)

⑩ 【R Studio中的计算】(http://www.sthda.com/english/wiki/correlation-test- Between-two-variables-in-r#:~:text=Compute%20correlation%20in%20R-,R%20functions,-Correlation%20coefficient%20can) 

cor(x, y)

受保护_1

受保护_2

受保护_3

⑶ 斯皮尔曼相关系数

①定义关于x’=rank(x)和y’=rank(x), 


图片


② 特点

○ 一种测量序数尺度的两个变量之间相关性的方法。

○ 针对序数变量的非参数方法。

○ 在有很多联系(零)的数据中具有优势。

○ 对数据中的偏差或错误敏感。

○ 往往会产生比 Kendall 相关系数更高的值。

特征1. 关于两个多维变量的秩差d1, d2,···


图片


特征2. 给定独立的(X1, Y1), X2, Y3,


스크린샷 2025-04-27 오후 11 51 20


⑤ 【R Studio中的计算】(http://www.sthda.com/english/wiki/correlation-test- Between-two-variables-in-r#:~:text=Compute%20correlation%20in%20R-,R%20functions,-Correlation%20coefficient%20can) 

受保护_4

cor.test(x, y, method = "spearman")

⑷肯德尔相关系数

①定义关于一致对和不一致对的定义

② 特点

○ 一种测量序数尺度的两个变量之间相关性的方法。

○ 针对序数变量的非参数方法。

○ 在有很多联系(零)的数据中具有优势。

○ 当样本量较小或数据中有许多关联值时很有用。

③ 程序

步骤 1. 对 x 值按升序对 y 值进行排序

步骤 2. 对于每个 yi,计算 yj > yi 的一致对的数量(假设 j > i)

步骤3. 对于每个yi,计算其中yj < yi 的不一致对的数量(假设j > i)

步骤4. 定义相关系数如下:


图片


○ nc: 一致对总数 

○ nd: 不一致对的总数 

○ n: x 和 y 的大小

○ 肯德尔相关系数样本


스크린샷 2025-04-15 1 26 32


④ 【R Studio中的计算】(http://www.sthda.com/english/wiki/correlation-test- Between-two-variables-in-r#:~:text=Compute%20correlation%20in%20R-,R%20functions,-Correlation%20coefficient%20can) 

受保护_6

cor.test(x, y, method = "kendall")

⑸ 马太相关系数(MCC)


图片


⑹ χ2:近似值适用性的度量

① 若测量数据为xm、ym,近似函数为f(x)


图片


② 求近似函数时,通过χ2的微分计算无穷小点。> ③ 用于二次逼近函数等非线性回归

⑺ 能源统计

① Székely、Rizzo 和 Bakirov 于 2007 年提出

② 距离协方差 V(X,Y) 和距离相关性 V(X,Y) / √V((X,X)·V(Y,Y))


스크린샷 2025-04-30 8 06 25



4。安斯科姆四重奏  

⑴表明均值、标准差和相关系数不能描述给定数据的形状

示例1


图片

图 1. Anscombe 四重奏示例


示例2


图片

图 2. Anscombe 四重奏的第二个示例



5。序数统计

⑴ 概述

① 假设:Xi 和 Xj 独立 

② 定义:通过重新排列 X1、…、Xn,将 Yi 设为 Y1 < ··· < Yn 

⑵ 统计

① 联合概率分布


图片


② 边际概率分布


图片


③ 期望值


图片


⑶ 【订单问题举例统计](https://blog.kakaocdn.net/dn/GvY4O/btsLKbNWEPz/qCFSVKa0N3PNR9rH8c4AD1/%E1%84%89%E1%85%AE%E1%86%AB%E1%84%89%E1%85% A5%E1%84%90%E1%85%A9%E1%86%BC%E1%84%80%E1%85%A8%E1%84%85%E1%85%A3%E1%86%BC%2018%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)

①题型:询问n个值中的最大值或最小值的分布和统计,或者k阶统计量的分布。

示例 1: 从 [0, 1] 上的均匀分布中抽取大小为 3 的随机样本。计算样本最大值大于0.7的概率。

○ 解决方案

Pr(Y > 0.7) = 1 - (Pr(X ≤ 0.7))3 = 1 - 0.73 = 0.657

示例 2: X 服从均值为 1 的指数分布。抽取大小为 3 的样本。计算三个值的中位数的期望值。

○ 解决方案

fY(x) = (3!/ 1!1!1!)·(1 - e-x)·e-x·e-x = 6(e-2x - e-3x)

∴ E[Y] = ∫0 到 ∞ 6x(e-2x - e-3x) dx = 5/6


6。条件统计

⑴ 条件期望

① 定义


图片


② 特点

E(XY | Y) = YE(X | Y)

E(aX1 + bX2 | Y) = aE(X1 | Y) + b(X2 | Y)


图片


③ 迭代期望定律(塔性质)

○ 引理


图片


○ 证明


图片


○ 示例

当随机选择Y在[0, ℓ]处的点作为均匀分布,然后在X上随机选择在[0, y]处的点作为均匀分布时,


图片


④ 平均独立性

○ 独立性 ⊂ 平均独立性 ⊂ 不相关性» ○ 独立性一般

○ 不相关性:如果相关系数为0

○ 正态分布:如果 X 和 Y 共同正态且不相关,则 X 和 Y 独立

⑤【简单回归分析】(https://jb243.github.io/pages/1632)


图片


⑵条件方差

①定义:Y对于给定概率变量X的条件方差


图片


② 总方差定律(方差分解)

○ 引理


图片


○ 证明


图片


○ 含义

○ 情况:当 X ~ P1(θ), Y ~ P2(X) 

使用 P2 计算 VAR(Y | X) 和 E(Y | X)

○ 使用 P1 计算 E{·}, VAR{·}

E(VAR(X | Y)):组内方差

VAR(E(X | Y)):组间方差

示例 1.

○ X:下岗职工失业期 

○ X 的概率密度函数:指数分布


图片


○ 劳动力总数的 20% 熟练劳动力。 λ = 0.4

○ 劳动力总数的 80% 非技术工人。 λ = 0.1

○ VAR(X) 的计算


스크린샷 2025-04-25 오후 1 37 43


示例 2.

○ 问题:设 P 为续保汽车保单的投保人比例。 P 因代理而异。 P 遵循均值 0.8、方差 0.25 的 beta 分布。从保险公司的所有投保人中选出 10 名投保人。令 N 为更新汽车保单的投保人数量。计算 Var[N]。

○ 解: Var[N] = E[Var[N | P]] + Var[E[N | P]] = E[10P(1-P)] + Var[10P] = 10E[P] - 10E[P2] + 100Var[P] = 24.1

○ 注意:P1、P2、···、P10 的分布不是完全独立的,因为它们来自同一分布。因此,Var[N] ≠ Σi Var[P<​​sub>i</sub>]。



输入:2019.06.17 14:15

results matching ""

    No results matching ""