Korean, Edit

第 11 章. 样本组和样本分布

更高类别 【统计】【统计概览】(https://jb243.github.io/pages/1641)


1. 术语

2. 样本组特征

3. 卡方分布

4. 学生的 t 分布

5. Snedecor 的 F-分布



1.期限 

⑴ 人口整个感兴趣的群体

⑵调查

①完全普查对整个人群进行调查。很贵

②抽样调查对部分人群进行调查

⑶抽样调查

①代表性样本能够很好地反映总体特征的样本

② 目的抽样 研究者主观干预以代表总体的样本

③随机抽样不具有研究者主观性的样本

○ 如果每个样本的概率相同,

特性 1.同分布

特征2.独立分布样本之间存在独立性

○ 这两个特征称为独立同分布(i.i.d),是随机抽样的重要优点



2.样本组的特征

⑴随机样本当随机抽取X1、···、Xn的n个样本时,

① 每个样本都是独立的

② 每个样本具有相同的概率分布

③ E(Xi) = E(X) = m

④ VAR(Xi) = VAR(X) = σ2 

⑵ 样本组与总体的关系

①关于总体均值μ、总体方差σ2, 

② 样本均值


<中心> 绘图


③【样本方差】(https://jb243.github.io/pages/1595) 


<中心> 绘图


④样本相关性类似于【皮尔逊相关系数】的定义(https://jb243.github.io/pages/1625) ρ(x, y)


<中心> 绘图


○ <跨度>| r<子>XY | ≤ 1 </span>

rXY = 1 ⇔ Yi = aXi + b, a > 0

rXY = -1 ⇔ Yi = aXi + b, a < 0 

⑶引入新的随机变量样本均值

①样本均值的平均值


<中心> 绘图


②样本均值的方差


<中心> 绘图


⑷【中心极限定理】(https://jb243.github.io/pages/1594)

①定义二项式分布的正态分布近似 

② 泛化对于任意概率分布的X,如果n足够大,X的样本均值可以逼近正态分布



3。卡方分布 

⑴ 概述> ① 当样本统计量为样本方差时的样本分布

② 将n个独立标准正态随机变量分别平方,然后求和得到的分布

③ [伽玛分布]的特殊形式(https://jb243.github.io/pages/1627#3-gamma-distribution),其中 λ = 1/2, r = n/2


<中心> 绘图


表示1。与样本方差相关的随机变量的分布


<中心> 绘图


引理 1. 如果 Z ~ N(0, 1), Y = Z2 ~ χ2(1) 


<中心> 绘图


引理 2. 由于 (Xi - μ) / σ ~ N(0, 1),其平方遵循 χ2(1) 


<中心> 绘图


引理 3. 如果 Zi ~ N(0, 1), W = ΣZi2 ~ χ2(n) 


<中心> 绘图


引理 4. 总体均值已知时 ⑵ 的概率分布


<中心> 绘图


引理 5. ⑵ 随机变量的展开


<中心> 绘图


引理 6. A 和 C 独立 由于 A 和 C 服从正态分布,因此是 COV(A, C) = 0 的充要条件 

○ COV(Xi - -Xavg, Xavg) = 0 : 直观上来说,Xi 中无法用 Xavg 解释的余数与 Xavg 本身无关


<中心> 绘图


引理 7. 因为 ψA(t) × ψC(t) = ψB(t) ( A 和 C 独立),A ~ χ2(n-1)


<中心> 绘图


意思是2。指数分布和卡方分布


<中心> 绘图


⑷ 自由度

① 首次用于卡方分布

② χ2(n) 是 n 个自由度的卡方分布

③ 随着自由度n变小,形状向左倾斜的非对称形状> ④ 自由度从n≥3开始为单杆形式,值越大越接近正态分布

⑸ 特点

① χ2(1) = Z(0, 1)2

② 期望值:E(X) = n(但自由度为n)

③ 方差:V(X) = 2n(其中自由度为n)

④ χ2(n) / n 收敛至 1,且 n → ∞


<中心> 绘图


⑹ 应用

① 卡方分布表  


<中心> 绘图


表。 1.卡方分布


②概率密度函数 约0<x<∞且自由度n, 


<中心> 绘图


○ 实际上,用手使用概率密度函数是很困难的

○ 图


<中心> 绘图


图。 1.自由度为55的卡方分布函数的概率密度函数


○ Python编程 : Bokeh 用于网页可视化


# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.chi2.html

<span style=“color:#008800; font-weight:bold”>导入</span> <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span>
<span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>scipy.stats</span> <span style=“color:#008800; font-weight:bold”>导入</span> chi2
<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示

输出文件("chi_squared_distribution.html")

df = 55

x = np.linspace(0, 100, 300)
y = chi2.pdf(x, df)p = 图(宽度 = 400,高度 = 400,标题= “卡方分布”, 
               工具提示=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width = 2)
显示(页)
</前></div>


> ③ R studio代码 
qchisq(0.951)
# [1] 3.841459
qchisq(<span style =“color:#6600EE; font-weight:bold”>0.99</span>,<span style =“color:#0000DD; font-weight:bold”>1</span>)
# [1] 6.634897
chi_square <- seq(0, 10) dchisq(chi_square, 1) #密度函数
# [1] 信息 0.2419707245 0.1037768744 0.0513934433 0.0269954833
# [6] 0.0146449826 0.0081086956 0.0045533429 0.0025833732 0.0014772828
# [11] 0.0008500367
df <- 矩阵(c(38, 14, 11, 51),ncol = 2,dimnames = 列表(头发= c("白皙""深色")、眼睛 = c(“蓝色”“棕色”))) 
df_chisq <- chisq.测试(df)
附加(df_chisq)
p.# [1] 8.700134e-09
</前></div>



## **4。学生的t****\-分布** ⑴定义**:**当Z ~ N(0, 1), Y ~ χ2(n)时,下列随机变量的概率分布
<中心> 绘图
⑵含义
<中心> 绘图
> ①正态分布需要知道总体的方差> ② 实际上,我们不知道总体的方差,所以我们使用样本方差 > ③当我们使用样本方差进行区间估计时,样本均值的分布恰好是t分布 ⑶ 特点  > ① 对称性 > ② T 分布比标准正态分布更胖 
| **自由度** | **置信区间** | | --- | --- | | 4 | ± 3.182 | | 60| ± 2.001 | | 200 | 200 ± 1.972 | | 1000 | 1000 ± 1.962 | |无穷大| ± 1.96 |
表。 2. t 分布的 95% 置信区间

⑷ 应用  > ① t分布表
<中心> 绘图
表。 3.t分布表

> ②概率密度函数**:** 关于-∞<x<∞和自由度n, 
<中心> 绘图
>> ○ 实际上,手工使用概率密度函数是很困难的 >> ○ 图
<中心> 绘图
图。 2.自由度为2.74的t分布

>> ○ Python编程 **:** [Bokeh](https://jb243.github.io/pages/2186)用于网页可视化
# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.t.html

<span style=“color:#008800; font-weight:bold”>导入</span> <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span>
<span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>scipy.stats</span> <span style=“color:#008800; font-weight:bold”>导入</span> t
<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示

输出文件("t_distribution.html")

df = 2.74

x = np.linspace(-7, 7300)
y = t.pdf(x, df)p = 图(宽度 = 400,高度 = 400,标题= “学生的t分布”, 
               工具提示=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width = 2)
显示(页)
</前></div>



## **5。 Snedecor 的 F 分布**  ⑴定义**:**当U ~ χ2(n)、V ~ χ2(m)时,下列随机变量的概率分布 
<中心> 绘图
⑵含义
<中心> 绘图
⑶ 特点 > ① **特性1.** 若X ~ F(n, m), 1 / X ~ F(m, n)成立 > ② **特性** **2.** 若 X ~ F(n, m), E(X) = m / (m - 2) (假设,m > 2)成立 > ③ **特征** **3.** 若 X ~ F(n, m), VAR(X) = 2m2(n + m - 2) ÷ n(m - 2)2(m - 4) (假设 m > 4) 成立 > ④ **特征** **4.** F(1, n) = T2(n) > ⑤ **特征** **5.** F(n, ∞) = χ2(m) / m  >> ○ 原因**:** χ2(n) / n 如果 n → ∞ 则收敛为 1 ⑷ 应用 > ① F-分布表
<中心> 绘图
表。 4.F分布表(α:0.01)

<中心> 绘图
表。 5.F分布表(α:0.025)

<中心> 绘图
表。 6.F分布表(α:0.05)

> ② 概率密度函数**:** 约 0 < x < ∞ 以及 n、m 的自由度(假设 F(n, m)), 
<中心> 绘图
>> ○ 实际上,用手使用概率密度函数是很困难的  >> ○ 图
<中心> 绘图
图。 3.F分布(自由度:分子=29,分母=18)

>> ○ Python编程 **:** [Bokeh](https://jb243.github.io/pages/2186)用于网页可视化
# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.f.html

<span style=“color:#008800; font-weight:bold”>导入</span> <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span>
<span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>scipy.stats</span> <span style=“color:#008800; font-weight:bold”>导入</span> f
<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示

输出文件("f_distribution.html")

dfn, dfd = 29, 18

x = np.linspace(0, 6, 300)
rv = f(dfn, dfd)
y = rv.pdf(x)

p = 图(宽度 = 400,高度 = 400,标题= “F分布”, 
               工具提示=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width = 2)
显示(页)
</前></div>


--- *输入时间:2019.06.19 13:42*

results matching ""

    No results matching ""