第 11 章. 样本组和样本分布

更高类别：【统计】【统计概览】(https://jb243.github.io/pages/1641)

1. 术语

2. 样本组特征

3. 卡方分布

4. 学生的 t 分布

5. Snedecor 的 F-分布

1.期限

⑴ 人口：整个感兴趣的群体

⑵调查

①完全普查：对整个人群进行调查。很贵

②抽样调查：对部分人群进行调查

⑶抽样调查

①代表性样本：能够很好地反映总体特征的样本

② 目的抽样：研究者主观干预以代表总体的样本

③随机抽样：不具有研究者主观性的样本

○ 如果每个样本的概率相同，

○ 特性 1.同分布

○ 特征2.独立分布：样本之间存在独立性

○ 这两个特征称为独立同分布（i.i.d），是随机抽样的重要优点

2.样本组的特征

⑴随机样本：当随机抽取X₁、···、X_n的n个样本时，

① 每个样本都是独立的

② 每个样本具有相同的概率分布

③ E(X_i) = E(X) = m

④ VAR(X_i) = VAR(X) = σ²

⑵ 样本组与总体的关系

①关于总体均值μ、总体方差σ²，

② 样本均值

<中心>

③【样本方差】(https://jb243.github.io/pages/1595)

<中心>

④样本相关性：类似于【皮尔逊相关系数】的定义(https://jb243.github.io/pages/1625) ρ(x, y)

<中心>

○ <跨度>| r<子>XY | ≤ 1 </span>

○ r_XY = 1 ⇔ Y_i = aX_i + b, a ＞ 0

○ r_XY = -1 ⇔ Y_i = aX_i + b, a ＜ 0

⑶引入新的随机变量：样本均值

①样本均值的平均值

<中心>

②样本均值的方差

<中心>

⑷【中心极限定理】(https://jb243.github.io/pages/1594)

①定义：二项式分布的正态分布近似

② 泛化：对于任意概率分布的X，如果n足够大，X的样本均值可以逼近正态分布

3。卡方分布

⑴ 概述> ① 当样本统计量为样本方差时的样本分布

② 将n个独立标准正态随机变量分别平方，然后求和得到的分布

③ [伽玛分布]的特殊形式(https://jb243.github.io/pages/1627#3-gamma-distribution)，其中 λ = 1/2, r = n/2

<中心>

⑵ 表示1。与样本方差相关的随机变量的分布

<中心>

① 引理 1. 如果 Z ~ N(0, 1), Y = Z² ~ χ²(1)

<中心>

② 引理 2. 由于 (X_i - μ) / σ ~ N(0, 1)，其平方遵循 χ²(1)

<中心>

③ 引理 3. 如果 Z_i ~ N(0, 1), W = ΣZ_i² ~ χ²(n)

<中心>

④ 引理 4. 总体均值已知时 ⑵ 的概率分布

<中心>

⑤ 引理 5. ⑵ 随机变量的展开

<中心>

⑥ 引理 6. A 和 C 独立：由于 A 和 C 服从正态分布，因此是 COV(A, C) = 0 的充要条件

○ COV(X_i - -X_avg, X_avg) = 0 : 直观上来说，Xi 中无法用 Xavg 解释的余数与 Xavg 本身无关

<中心>

⑦ 引理 7. 因为 ψ_A(t) × ψ_C(t) = ψ_B(t) （∵ A 和 C 独立），A ~ χ²(n-1)

<中心>

⑶意思是2。指数分布和卡方分布

<中心>

⑷ 自由度

① 首次用于卡方分布

② χ²(n) 是 n 个自由度的卡方分布

③ 随着自由度n变小，形状向左倾斜的非对称形状> ④ 自由度从n≥3开始为单杆形式，值越大越接近正态分布

⑸ 特点

① χ²(1) = Z(0, 1)²

② 期望值：E(X) = n（但自由度为n）

③ 方差：V(X) = 2n（其中自由度为n）

④ χ²(n) / n 收敛至 1，且 n → ∞

<中心>

⑹ 应用

① 卡方分布表

<中心>

表。 1.卡方分布

②概率密度函数：约0＜x＜∞且自由度n，

<中心>

○ 实际上，用手使用概率密度函数是很困难的

○ 图

<中心>

图。 1.自由度为55的卡方分布函数的概率密度函数

○ Python编程 : Bokeh 用于网页可视化

# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.chi2.html

<span style=“color：#008800; font-weight：bold”>导入</span> <span style=“color：#0e84b5; font-weight：bold”>numpy</span> <span style=“color：#008800; font-weight：bold”>as</span> <span style=“color：#0e84b5; font-weight：bold”>np</span>
<span style=“color：#008800; font-weight：bold”>来自</span> <span style=“color：#0e84b5; font-weight：bold”>scipy.stats</span> <span style=“color：#008800; font-weight：bold”>导入</span> chi2
<span style =“color：#008800; font-weight：bold”>来自</span> <span style =“color：#0e84b5; font-weight：bold”>bokeh.plotting</span> <span style =“color：#008800; font-weight：bold”>导入</span>图，output_file，显示

输出文件("chi_squared_distribution.html")

df = 55

x = np.linspace(0, 100, 300)
y = chi2.pdf(x, df)p = 图（宽度 = 400，高度 = 400，标题= “卡方分布”， 
               工具提示=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width = 2)
显示（页）
</前></div>




> ③ R studio代码 

qchisq(0.95，1)
# [1] 3.841459
qchisq（<span style =“color：#6600EE; font-weight：bold”>0.99</span>，<span style =“color：#0000DD; font-weight：bold”>1</span>）
# [1] 6.634897
chi_square <- seq(0, 10) dchisq(chi_square, 1) #密度函数
# [1] 信息 0.2419707245 0.1037768744 0.0513934433 0.0269954833
# [6] 0.0146449826 0.0081086956 0.0045533429 0.0025833732 0.0014772828
# [11] 0.0008500367
df <- 矩阵(c(38, 14, 11, 51），ncol = 2，dimnames = 列表（头发= c("白皙"、"深色")、眼睛 = c(“蓝色”，“棕色”))) 
df_chisq <- chisq.测试(df)
附加（df_chisq）
p.值
# [1] 8.700134e-09
</前></div>







## **4。学生的t****\-分布**

⑴定义**：**当Z ~ N(0, 1), Y ~ χ²(n)时，下列随机变量的概率分布



<中心>


  


⑵含义



<中心>


  


> ①正态分布需要知道总体的方差> ② 实际上，我们不知道总体的方差，所以我们使用样本方差

> ③当我们使用样本方差进行区间估计时，样本均值的分布恰好是t分布

⑶ 特点 

> ① 对称性

> ② T 分布比标准正态分布更胖 




| **自由度** | **置信区间** |
| --- | --- |
| 4 | ± 3.182 |
| 60| ± 2.001 |
| 200 | 200 ± 1.972 |
| 1000 | 1000 ± 1.962 |
|无穷大| ± 1.96 |

表。 2. t 分布的 95% 置信区间  




⑷ 应用 

> ① t分布表



<中心>


  


表。 3.t分布表




> ②概率密度函数**：** 关于-∞＜x＜∞和自由度n， 



<中心>


  


>> ○ 实际上，手工使用概率密度函数是很困难的

>> ○ 图



<中心>


  


图。 2.自由度为2.74的t分布




>> ○ Python编程 **:** [Bokeh](https://jb243.github.io/pages/2186)用于网页可视化




# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.t.html

<span style=“color：#008800; font-weight：bold”>导入</span> <span style=“color：#0e84b5; font-weight：bold”>numpy</span> <span style=“color：#008800; font-weight：bold”>as</span> <span style=“color：#0e84b5; font-weight：bold”>np</span>
<span style=“color：#008800; font-weight：bold”>来自</span> <span style=“color：#0e84b5; font-weight：bold”>scipy.stats</span> <span style=“color：#008800; font-weight：bold”>导入</span> t
<span style =“color：#008800; font-weight：bold”>来自</span> <span style =“color：#0e84b5; font-weight：bold”>bokeh.plotting</span> <span style =“color：#008800; font-weight：bold”>导入</span>图，output_file，显示

输出文件("t_distribution.html")

df = 2.74

x = np.linspace(-7, 7，300)
y = t.pdf(x, df)p = 图（宽度 = 400，高度 = 400，标题= “学生的t分布”， 
               工具提示=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width = 2)
显示（页）
</前></div>







## **5。 Snedecor 的 F 分布** 

⑴定义**：**当U ~ χ²(n)、V ~ χ²(m)时，下列随机变量的概率分布 



<中心>


  


⑵含义



<中心>


  


⑶ 特点

> ① **特性1.** 若X ~ F(n, m), 1 / X ~ F(m, n)成立

> ② **特性** **2.** 若 X ~ F(n, m), E(X) = m / (m - 2) （假设，m ＞ 2）成立

> ③ **特征** **3.** 若 X ~ F(n, m), VAR(X) = 2m²(n + m - 2) ÷ n(m - 2)²(m - 4) (假设 m ＞ 4) 成立

> ④ **特征** **4.** F(1, n) = T²(n)

> ⑤ **特征** **5.** F(n, ∞) = χ²(m) / m 

>> ○ 原因**:** χ²(n) / n 如果 n → ∞ 则收敛为 1

⑷ 应用

> ① F-分布表



<中心>


  


表。 4.F分布表（α：0.01）



<中心>


  


表。 5.F分布表(α:0.025)



<中心>


  


表。 6.F分布表(α:0.05)




> ② 概率密度函数**：** 约 0 ＜ x ＜ ∞ 以及 n、m 的自由度（假设 F(n, m)）， 



<中心>


  


>> ○ 实际上，用手使用概率密度函数是很困难的 

>> ○ 图



<中心>


  


图。 3.F分布（自由度：分子=29，分母=18）




>> ○ Python编程 **:** [Bokeh](https://jb243.github.io/pages/2186)用于网页可视化


# see https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.f.html

<span style=“color：#008800; font-weight：bold”>导入</span> <span style=“color：#0e84b5; font-weight：bold”>numpy</span> <span style=“color：#008800; font-weight：bold”>as</span> <span style=“color：#0e84b5; font-weight：bold”>np</span>
<span style=“color：#008800; font-weight：bold”>来自</span> <span style=“color：#0e84b5; font-weight：bold”>scipy.stats</span> <span style=“color：#008800; font-weight：bold”>导入</span> f
<span style =“color：#008800; font-weight：bold”>来自</span> <span style =“color：#0e84b5; font-weight：bold”>bokeh.plotting</span> <span style =“color：#008800; font-weight：bold”>导入</span>图，output_file，显示

输出文件("f_distribution.html")

dfn, dfd = 29, 18

x = np.linspace(0, 6, 300)
rv = f(dfn, dfd)
y = rv.pdf(x)

p = 图（宽度 = 400，高度 = 400，标题= “F分布”， 
               工具提示=[("x", "$x"), ("y", "$y")])
p.line(x, y, line_width = 2)
显示（页）
</前></div>




---

*输入时间：2019.06.19 13:42*

6629

第 11 章. 样本组和样本分布

1.期限

2.样本组的特征

3。卡方分布

results matching ""

No results matching ""