第 7 章. 连续概率分布

高级类别：【统计】【统计概述】(https://jb243.github.io/pages/1641)

1. 均匀分布

2. 正态分布

1.均匀分布

⑴定义：所有随机变量具有恒定概率的概率分布

⑵ 概率密度函数： X ~ u[a, b], p(x) = 1 / (b - a) I｛a ≤ x ≤ b｝

图 1. X ~ u[1, 9] 上的 x - p(x) 图表

① Python编程： Bokeh用于网页可视化

受保护_0

⑶统计数据

①力矩生成函数

②平均：E(X) = (a + b) / 2

③ 方差： VAR(X) = (b - a)2 / 12

④边际概率分布的含义是长度÷总面积

⑷ 示例

① 【制服问题示例分布](https://blog.kakaocdn.net/dn/bW64At/btsLK2kduoI/UYGuCu9Qq3rJWkScbVfMxk/%E1%84%80%E1%85%B2%E1%86%AB%E1%8 4%8B%E1%85%B5%E1%86%AF%E1%84%87%E1%85%AE%E1%86%AB%E1%84%91%E1%85%A9%2016%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)

② 【联合制服问题示例分布](https://blog.kakaocdn.net/dn/bjacE2/btsLKb91CRK/T6xKqoHCrhydQK1kMtnURK/%E1%84%80%E1%85%A7%E1%86%AF%E1%84%92%E1%85%A1%E1%86%B8%E1%8 4%80%E1%85%B2%E1%86%AB%E1%84%8B%E1%85%B5%E1%86%AF%E1%84%87%E1%85%AE%E1%8 6%AB%E1%84%91%E1%85%A9%2010%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)

2.正态分布

⑴ 定义：_nC_x θ^x (1 - θ)^n-x by n → ∞ 的极限

① 由于普遍观察，称为正态分布

② 一般来说，标准正态分布密度函数表示为 φ(·)，累积分布函数表示为 Φ(·)

③ 中心极限定理：如果 X = ΣX_i，取 n → ∞ 将得到正态分布

④ 首先导出近似二项式分布 (De Moivre, 1721)

⑤ 用于分析天文学中的模型误差（Gaus, 1809）

○ 事实上，这也称为高斯分布

⑵概率密度函数

图2.标准正态分布的概率密度函数

① Python编程：Bokeh用于网页可视化

受保护_1

⑶统计数据

①力矩生成函数

② 平均值：E(X) = μ

③方差：VAR(X) = σ²

⑷ 特点

① 特性1. 绕μ对称

② 特征2. 如果 X ~ N(μ, σ²), Y = aX + b ~ N(aμ + b, a²σ²)

③ 特征3. 若 X_i ~ N(μ_i, σ_i²), X = ΣX_i ~ N(Σμ_i, Σσ_i²)

④ 特征4. 【不相关性】(https://jb243.github.io/pages/1625)：如果X和Y共同正态且不相关，则X和Y独立

⑸ 标准正态分布

①定义：均值为0、标准差为1的正态分布

② 归一化：若 X ~ N(μ, σ²), Z = (X - μ) / σ

③标准正态分布的累积分布函数Φ(z)

④ z_α：z_α值为X大于z_α的概率为α时的值

⑹ 正态分布表

表1.正态分布表

⑺ 示例

① 正常情况下的示例问题分布

② 【中心极限问题示例定理](https://blog.kakaocdn.net/dn/bZrTiS/btsLLN7WH5I/hkNU2YxK1H7nklUh04Ekc1/%E1%84%8C%E1%85%AE%E1%86%BC%E1%84%89%E1%85%B5%E1%86%B7%E1%84%8 0%E1%85%B3%E1%86%A8%E1%84%92%E1%85%A1%E1%86%AB%E1%84%8C%E1%85%A5%E1%86% BC%E1%84%85%E1%85%B5%2020%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)

⑻ 应用1. 对数正态分布

①定义：对数服从正态分布的随机变量的分布。换句话说，随机变量本身是指数函数，其中指数是正态分布的随机变量。

② 数学表示：若 ln X ~ N(μ, σ²)，则

○ E[X] = exp(μ + σ² / 2) （∵源自矩生成函数）

○ E[X²] = exp(2μ + 2σ²) （∵源自矩生成函数）

○ Var(X) = E[X²] - (E[X])²

○ 样本均值 X̄ 可以说服从正态分布，均值为 exp(μ + σ² / 2)，方差为 Var(X) / n。

③ 示例：在测序数据中，每个样本/细胞/斑点的计数值通常遵循对数正态分布。

⑼ 应用2. 柯西分布

①定义：服从正态分布的两个独立随机变量X₁和X₂之比。

⑽ 应用3. 瑞利分布

① 定义：均值零、窄带噪声信号的包络的瞬时值。

② 如果 X 和 Y 是遵循 N(0, σ²) 的独立随机变量，则 (X² + Y²)^1/2 遵循 Rayleigh(σ²)。

③ 数学公式

○ 概率密度函数

○ 累计分配功能

○ 均值和方差

3。伽马分布

⑴ 伽玛函数

① 定义 1. 对于 x ＞ 0，

② 定义 2.

③特点

○ Г(-3/2) = 4/3 √π

○ Г(-1/2) = -2 √π

○ Г(1/2) = √π

○ Г(1) = 1

○ Г(3/2) = 1/2 √π

○ Г(a + 1) = aГ(a)

○ Г(n + 1) = n!

⑵ 伽玛分布

①概率密度函数：对于x、r、λ＞0，

图3.伽玛分布的概率密度函数

○ Python编程： Bokeh用于网页可视化

受保护_2

②意义

○ 第 r 个事件发生之前的时间概率分布

○ r（形状参数）

○ λ（速率参数）：单位时间内的平均事件数

○ β（尺度参数）： β = 1 / λ

⑶统计数据

①力矩生成函数

② 平均值：E(X) = r / λ

③ 方差： VAR(X) = r / λ²

⑷ 与不同概率分布的关系

① 二项分布

②负二项分布

③ 贝塔分布

④卡方分布：当λ=1/2、r=ν/2时，得到自由度为ν的卡方分布。

4.指数分布

⑴ 概述

① 测量从指定点到特定事件发生所经过的时间的概率分布。

○ 换句话说，直到事件第一次发生为止的持续时间。

○ 推导：对于单位时间内发生λ次的事件，

② 伽马分布中 α = 1 的特殊情况

③参数含义

○ β（生存参数

○ λ（速率参数）：单位时间内的平均事件数

④【泊松分布】(https://jb243.github.io/pages/1626)：时长固定。事件数是随机变量

⑵概率密度函数：对于x＞0，

图4.指数分布的概率密度函数

① Python编程：Bokeh用于网页可视化

受保护_3

⑶统计数据

①力矩生成函数

② 平均值： E(X) = 1 / λ

○ 含义：直观上可以看出1 / λ

③ 方差： VAR(X) = 1 / λ²

⑷ 失忆

①定义

② 示例：当电池续航时间服从指数分布时，现有使用时间不影响剩余续航时间

⑸ 示例

① 指数的示例问题分布

5.贝塔分布

⑴ beta函数：对于α、β＞0，

⑵ 贝塔分布

图5. beta分布的概率密度函数

① Python编程： Bokeh用于网页可视化

受保护_4

② E(X) = α ÷ (α + β)

③ VAR(X) = αβ ÷ ((α + β)²(α + β + 1))

⑵与伽玛函数的关系

⑶ 特点

①交换律： B(α, β) = B(β, α)

②等价表达

③ 贝塔二项式分布

○ 具有 Beta 分布的事件重复多次时的成功次数分布

○ beta 二项式分布比二项式分布具有更大的方差

⑷ 广义贝塔分布

6.帕累托分布

⑴ 简单帕累托分布

①概率密度函数：对于形状参数a，

图 6. 简单 Pareto 分布的概率密度函数

○ Python编程： Bokeh用于网页可视化

受保护_5

> ②概率分布函数

⑵ 广义帕累托分布

①概率密度函数：对于尺度参数b，

②概率分布函数

7.物流配送

⑴ 简单的物流配送

①概率密度函数

图 7. 简单的物流分配

○ Python编程： Bokeh用于网页可视化

受保护_6

⑵广义物流配送

①概率密度函数

8.狄利克雷分布

⑴ 概述

① beta 分布的多元扩展，其中每个随机变量始终取 0 到 1 之间的值，并且它们的总和必须为 1。

② 由于 Dirichlet 分布中比例之和固定为 1 的限制，使用该分布的优化比其他分布的优化稍微复杂一些。

③ 它以其分析单纯形的能力而闻名。

⑵ 概率密度函数：对于 x = (x₁, ···, x_D) 和正参数 (λ₁, ···, λ_D)

图 8. 狄利克雷分布

⑶ 狄利克雷-多项共轭

9.Gumbel 模型

⑴Gumbel-Softmax

① 令 z 为分类变量，类概率为 π₁、π₂、····、π_k。

○ 例如，π = [0.2, 0.3, 0.5]

② 分类样本被编码为位于 (k−1) 维单纯形 Δ^𝑘−1 上的 k 维单热向量。

○ 原因：由于所有概率之和为 1，因此自由度减少 1。

○ 例如，Class 1、2、3 分别对应 [1, 0, 0]、[0, 1, 0]、[0, 0, 1]。

③ Gumbel-Softmax 使用softmax 产生连续输出，但当𝜏 接近0 时，Gumbel-Softmax 输出最终变得与argmax 相同，从而产生one-hot 向量。

○ 由于信息不足，原始的 x_i = log ⁡π_i 经过 softmax 函数后，无法从 𝑦 重建出来，无法进行逆变换。

○ 为了弥补这一点，我们定义了一个等效的采样过程，在 softmax 之前减去最后一个元素 (x_k + g_k) ∕ 𝜏：

⑵ 甘贝尔模型

① 尺度 β = 1 且 z 处的平均值 μ 的 Gumbel 分布的概率密度为

② 我们首先推导“居中”多元 Gumbel 密度：

③ 我们现在可以通过边缘化 g_k 来计算该分布的密度：

⑶ Gumbel-Softmax 分类重参数化

① 给定来自中心 Gumbel 分布的样本 u₁, ···, u_k-1，我们可以应用确定性变换 ℎ 从 Gumbel-Softmax 中生成样本的前 k−1 坐标：

② 这项工作的主要贡献是重新参数化 Gumbel-Softmax 分布，其相应的估计器提供了低方差路径分类分布的导数梯度。

③ 对于学习来说，在小温度（样本接近单热但梯度方差很大）和大温度（样本平滑但梯度方差很小）之间需要进行权衡。在实践中，我们从高温开始，然后退火到一个小但非零的温度。

④ Gumbel-Softmax 允许我们通过 y ~ q_𝜙(𝑦 │ 𝑥) 进行反向传播以进行单样本梯度估计，并实现每个训练步骤的成本 𝒪(𝐷+𝐼+𝐺)（戏剧性的加速），其中𝐷、𝐼、𝐺 是计算量来自 q_𝜙(𝑦 │ 𝑥)、q_𝜙(𝑧 │ 𝑥, 𝑦) 和 p_𝜙(𝑥 │ 𝑦, 𝑧) 的采样成本。

⑤ Gumbel-Softmax 和 ST Gumbel-Softmax 优于现有的随机梯度估计器：Score-Function (SF)、DARN、MuProp、Straight-Through (ST) 和 Slope-Annealed ST。

输入：2019.06.19 00:27

6627

第 7 章. 连续概率分布

1.均匀分布

2.正态分布

3。伽马分布

4.指数分布

5.贝塔分布

6.帕累托分布

7.物流配送

8.狄利克雷分布

9.Gumbel 模型

results matching ""

No results matching ""