第 11 章. 样本组和样本分布
更高类别: 【统计】【统计概览】(https://jb243.github.io/pages/1641)
1. 术语
2. 样本组特征
3. 卡方分布
4. 学生的 t 分布
1.期限
⑴ 人口:整个感兴趣的群体
⑵调查
①完全普查:对整个人群进行调查。很贵
②抽样调查:对部分人群进行调查
⑶抽样调查
①代表性样本:能够很好地反映总体特征的样本
② 目的抽样: 研究者主观干预以代表总体的样本
③随机抽样:不具有研究者主观性的样本
○ 如果每个样本的概率相同,
○ 特性 1.同分布
○ 特征2.独立分布:样本之间存在独立性
○ 这两个特征称为独立同分布(i.i.d),是随机抽样的重要优点
2.样本组的特征
⑴随机样本:当随机抽取X1、···、Xn的n个样本时,
① 每个样本都是独立的
② 每个样本具有相同的概率分布
③ E(Xi) = E(X) = m
④ VAR(Xi) = VAR(X) = σ2
⑵ 样本组与总体的关系
①关于总体均值μ、总体方差σ2,
② 样本均值
③【样本方差】(https://jb243.github.io/pages/1595)
④样本相关性:类似于【皮尔逊相关系数】的定义(https://jb243.github.io/pages/1625) ρ(x, y)
○ <跨度>| r<子>XY子> | ≤ 1 </span>跨度>
○ rXY = 1 ⇔ Yi = aXi + b, a > 0
○ rXY = -1 ⇔ Yi = aXi + b, a < 0
⑶引入新的随机变量:样本均值
①样本均值的平均值
②样本均值的方差
⑷【中心极限定理】(https://jb243.github.io/pages/1594)
①定义:二项式分布的正态分布近似
② 泛化:对于任意概率分布的X,如果n足够大,X的样本均值可以逼近正态分布
3。卡方分布
⑴ 概述> ① 当样本统计量为样本方差时的样本分布
② 将n个独立标准正态随机变量分别平方,然后求和得到的分布
③ [伽玛分布]的特殊形式(https://jb243.github.io/pages/1627#3-gamma-distribution),其中 λ = 1/2, r = n/2
⑵ 表示1。与样本方差相关的随机变量的分布
① 引理 1. 如果 Z ~ N(0, 1), Y = Z2 ~ χ2(1)
② 引理 2. 由于 (Xi - μ) / σ ~ N(0, 1),其平方遵循 χ2(1)
③ 引理 3. 如果 Zi ~ N(0, 1), W = ΣZi2 ~ χ2(n)
④ 引理 4. 总体均值已知时 ⑵ 的概率分布
⑤ 引理 5. ⑵ 随机变量的展开
⑥ 引理 6. A 和 C 独立: 由于 A 和 C 服从正态分布,因此是 COV(A, C) = 0 的充要条件
○ COV(Xi - -Xavg, Xavg) = 0 : 直观上来说,Xi 中无法用 Xavg 解释的余数与 Xavg 本身无关
⑦ 引理 7. 因为 ψA(t) × ψC(t) = ψB(t) (∵ A 和 C 独立),A ~ χ2(n-1)
⑶意思是2。指数分布和卡方分布
⑷ 自由度
① 首次用于卡方分布
② χ2(n) 是 n 个自由度的卡方分布
③ 随着自由度n变小,形状向左倾斜的非对称形状> ④ 自由度从n≥3开始为单杆形式,值越大越接近正态分布
⑸ 特点
① χ2(1) = Z(0, 1)2
② 期望值:E(X) = n(但自由度为n)
③ 方差:V(X) = 2n(其中自由度为n)
④ χ2(n) / n 收敛至 1,且 n → ∞
⑹ 应用
① 卡方分布表
②概率密度函数: 约0<x<∞且自由度n,
○ 实际上,用手使用概率密度函数是很困难的
○ 图
○ Python编程 : Bokeh 用于网页可视化
# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.chi2.html <span style=“color:#008800; font-weight:bold”>导入</span> <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span> <span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>scipy.stats</span> <span style=“color:#008800; font-weight:bold”>导入</span> chi2 <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示 输出文件("chi_squared_distribution.html") df = 55 x = np.linspace(0, 100, 300) y = chi2.pdf(x, df)p = 图(宽度 = 400,高度 = 400,标题= “卡方分布”, 工具提示=[("x", "$x"), ("y", "$y")]) p.line(x, y, line_width = 2) 显示(页) </前></div>
> ③ R studio代码qchisq(0.95,1) # [1] 3.841459 qchisq(<span style =“color:#6600EE; font-weight:bold”>0.99</span>,<span style =“color:#0000DD; font-weight:bold”>1</span>) # [1] 6.634897 chi_square <- seq(0, 10) dchisq(chi_square, 1) #密度函数 # [1] 信息 0.2419707245 0.1037768744 0.0513934433 0.0269954833 # [6] 0.0146449826 0.0081086956 0.0045533429 0.0025833732 0.0014772828 # [11] 0.0008500367 df <- 矩阵(c(38, 14, 11, 51),ncol = 2,dimnames = 列表(头发= c("白皙"、"深色")、眼睛 = c(“蓝色”,“棕色”))) df_chisq <- chisq.测试(df) 附加(df_chisq) p.值 # [1] 8.700134e-09 </前></div>
## **4。学生的t****\-分布** ⑴定义**:**当Z ~ N(0, 1), Y ~ χ2(n)时,下列随机变量的概率分布
<中心>中心>
⑵含义
<中心>中心>
> ①正态分布需要知道总体的方差> ② 实际上,我们不知道总体的方差,所以我们使用样本方差 > ③当我们使用样本方差进行区间估计时,样本均值的分布恰好是t分布 ⑶ 特点 > ① 对称性 > ② T 分布比标准正态分布更胖
| **自由度** | **置信区间** | | --- | --- | | 4 | ± 3.182 | | 60| ± 2.001 | | 200 | 200 ± 1.972 | | 1000 | 1000 ± 1.962 | |无穷大| ± 1.96 |表。 2. t 分布的 95% 置信区间
⑷ 应用 > ① t分布表
<中心>中心>
表。 3.t分布表
> ②概率密度函数**:** 关于-∞<x<∞和自由度n,
<中心>中心>
>> ○ 实际上,手工使用概率密度函数是很困难的 >> ○ 图
<中心>中心>
图。 2.自由度为2.74的t分布
>> ○ Python编程 **:** [Bokeh](https://jb243.github.io/pages/2186)用于网页可视化
# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.t.html <span style=“color:#008800; font-weight:bold”>导入</span> <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span> <span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>scipy.stats</span> <span style=“color:#008800; font-weight:bold”>导入</span> t <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示 输出文件("t_distribution.html") df = 2.74 x = np.linspace(-7, 7,300) y = t.pdf(x, df)p = 图(宽度 = 400,高度 = 400,标题= “学生的t分布”, 工具提示=[("x", "$x"), ("y", "$y")]) p.line(x, y, line_width = 2) 显示(页) </前></div>
## **5。 Snedecor 的 F 分布** ⑴定义**:**当U ~ χ2(n)、V ~ χ2(m)时,下列随机变量的概率分布
<中心>中心>
⑵含义
<中心>中心>
⑶ 特点 > ① **特性1.** 若X ~ F(n, m), 1 / X ~ F(m, n)成立 > ② **特性** **2.** 若 X ~ F(n, m), E(X) = m / (m - 2) (假设,m > 2)成立 > ③ **特征** **3.** 若 X ~ F(n, m), VAR(X) = 2m2(n + m - 2) ÷ n(m - 2)2(m - 4) (假设 m > 4) 成立 > ④ **特征** **4.** F(1, n) = T2(n) > ⑤ **特征** **5.** F(n, ∞) = χ2(m) / m >> ○ 原因**:** χ2(n) / n 如果 n → ∞ 则收敛为 1 ⑷ 应用 > ① F-分布表
<中心>中心>
表。 4.F分布表(α:0.01)
<中心>中心>
表。 5.F分布表(α:0.025)
<中心>中心>
表。 6.F分布表(α:0.05)
> ② 概率密度函数**:** 约 0 < x < ∞ 以及 n、m 的自由度(假设 F(n, m)),
<中心>中心>
>> ○ 实际上,用手使用概率密度函数是很困难的 >> ○ 图
<中心>中心>
图。 3.F分布(自由度:分子=29,分母=18)
>> ○ Python编程 **:** [Bokeh](https://jb243.github.io/pages/2186)用于网页可视化# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.f.html <span style=“color:#008800; font-weight:bold”>导入</span> <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span> <span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>scipy.stats</span> <span style=“color:#008800; font-weight:bold”>导入</span> f <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示 输出文件("f_distribution.html") dfn, dfd = 29, 18 x = np.linspace(0, 6, 300) rv = f(dfn, dfd) y = rv.pdf(x) p = 图(宽度 = 400,高度 = 400,标题= “F分布”, 工具提示=[("x", "$x"), ("y", "$y")]) p.line(x, y, line_width = 2) 显示(页) </前></div>
--- *输入时间:2019.06.19 13:42*