第 7 章. 连续概率分布
高级类别:【统计】【统计概述】(https://jb243.github.io/pages/1641)
1. 均匀分布
2. 正态分布
3. 伽玛分布
4. 指数分布
5. Beta 发行版
6. 帕累托分布
7. 物流配送
8. 狄利克雷分布
9. Gumbel 模型
1.均匀分布
⑴定义:所有随机变量具有恒定概率的概率分布
⑵ 概率密度函数: X ~ u[a, b], p(x) = 1 / (b - a) I{a ≤ x ≤ b}
图 1. X ~ u[1, 9] 上的 x - p(x) 图表
① Python编程: Bokeh用于网页可视化
受保护_0
⑶统计数据
①力矩生成函数
②平均:E(X) = (a + b) / 2
③ 方差: VAR(X) = (b - a)2 / 12
④边际概率分布的含义是长度÷总面积
⑷ 示例
① 【制服问题示例分布](https://blog.kakaocdn.net/dn/bW64At/btsLK2kduoI/UYGuCu9Qq3rJWkScbVfMxk/%E1%84%80%E1%85%B2%E1%86%AB%E1%8 4%8B%E1%85%B5%E1%86%AF%E1%84%87%E1%85%AE%E1%86%AB%E1%84%91%E1%85%A9%2016%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)
② 【联合制服问题示例分布](https://blog.kakaocdn.net/dn/bjacE2/btsLKb91CRK/T6xKqoHCrhydQK1kMtnURK/%E1%84%80%E1%85%A7%E1%86%AF%E1%84%92%E1%85%A1%E1%86%B8%E1%8 4%80%E1%85%B2%E1%86%AB%E1%84%8B%E1%85%B5%E1%86%AF%E1%84%87%E1%85%AE%E1%8 6%AB%E1%84%91%E1%85%A9%2010%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)
2.正态分布
⑴ 定义:nCx θx (1 - θ)n-x by n → ∞ 的极限
① 由于普遍观察,称为正态分布
② 一般来说,标准正态分布密度函数表示为 φ(·),累积分布函数表示为 Φ(·)
③ 中心极限定理: 如果 X = ΣXi,取 n → ∞ 将得到正态分布
④ 首先导出近似二项式分布 (De Moivre, 1721)
⑤ 用于分析天文学中的模型误差(Gaus, 1809)
○ 事实上,这也称为高斯分布
⑵概率密度函数
图2.标准正态分布的概率密度函数
① Python编程:Bokeh用于网页可视化
受保护_1
⑶统计数据
①力矩生成函数
② 平均值:E(X) = μ
③方差:VAR(X) = σ2
⑷ 特点
① 特性1. 绕μ对称
② 特征2. 如果 X ~ N(μ, σ2), Y = aX + b ~ N(aμ + b, a2σ2)
③ 特征3. 若 Xi ~ N(μi, σi2), X = ΣXi ~ N(Σμi, Σσi2)
④ 特征4. 【不相关性】(https://jb243.github.io/pages/1625):如果X和Y共同正态且不相关,则X和Y独立
⑸ 标准正态分布
①定义:均值为0、标准差为1的正态分布
② 归一化: 若 X ~ N(μ, σ2), Z = (X - μ) / σ
③标准正态分布的累积分布函数Φ(z)
④ zα:zα值为X大于zα的概率为α时的值
⑹ 正态分布表
表1.正态分布表
⑺ 示例
② 【中心极限问题示例定理](https://blog.kakaocdn.net/dn/bZrTiS/btsLLN7WH5I/hkNU2YxK1H7nklUh04Ekc1/%E1%84%8C%E1%85%AE%E1%86%BC%E1%84%89%E1%85%B5%E1%86%B7%E1%84%8 0%E1%85%B3%E1%86%A8%E1%84%92%E1%85%A1%E1%86%AB%E1%84%8C%E1%85%A5%E1%86% BC%E1%84%85%E1%85%B5%2020%E1%84%8C%E1%85%A6.pdf?attach=1&knm=tfile.pdf)
⑻ 应用1. 对数正态分布
①定义:对数服从正态分布的随机变量的分布。换句话说,随机变量本身是指数函数,其中指数是正态分布的随机变量。
② 数学表示:若 ln X ~ N(μ, σ2),则
○ E[X] = exp(μ + σ2 / 2) (∵源自矩生成函数)
○ E[X2] = exp(2μ + 2σ2) (∵源自矩生成函数)
○ Var(X) = E[X2] - (E[X])2
○ 样本均值 X̄ 可以说服从正态分布,均值为 exp(μ + σ2 / 2),方差为 Var(X) / n。
③ 示例:在测序数据中,每个样本/细胞/斑点的计数值通常遵循对数正态分布。
⑼ 应用2. 柯西分布
①定义:服从正态分布的两个独立随机变量X1和X2之比。
⑽ 应用3. 瑞利分布
① 定义:均值零、窄带噪声信号的包络的瞬时值。
② 如果 X 和 Y 是遵循 N(0, σ2) 的独立随机变量,则 (X2 + Y2)1/2 遵循 Rayleigh(σ2)。
③ 数学公式
○ 概率密度函数
○ 累计分配功能
○ 均值和方差
3。伽马分布
⑴ 伽玛函数
① 定义 1. 对于 x > 0,
② 定义 2.
③特点
○ Г(-3/2) = 4/3 √π
○ Г(-1/2) = -2 √π
○ Г(1/2) = √π
○ Г(1) = 1
○ Г(3/2) = 1/2 √π
○ Г(a + 1) = aГ(a)
○ Г(n + 1) = n!
⑵ 伽玛分布
①概率密度函数:对于x、r、λ>0,
图3.伽玛分布的概率密度函数
○ Python编程: Bokeh用于网页可视化
受保护_2
②意义
○ 第 r 个事件发生之前的时间概率分布
○ r(形状参数)
○ λ(速率参数):单位时间内的平均事件数
○ β(尺度参数): β = 1 / λ
⑶统计数据
①力矩生成函数
② 平均值:E(X) = r / λ
③ 方差: VAR(X) = r / λ2
⑷ 与不同概率分布的关系
① 二项分布
②负二项分布
③ 贝塔分布
④卡方分布:当λ=1/2、r=ν/2时,得到自由度为ν的卡方分布。
4.指数分布
⑴ 概述
① 测量从指定点到特定事件发生所经过的时间的概率分布。
○ 换句话说,直到事件第一次发生为止的持续时间。
○ 推导:对于单位时间内发生λ次的事件,
② 伽马分布中 α = 1 的特殊情况
③参数含义
○ β(生存参数
○ λ(速率参数):单位时间内的平均事件数
④【泊松分布】(https://jb243.github.io/pages/1626):时长固定。事件数是随机变量
⑵概率密度函数:对于x>0,
图4.指数分布的概率密度函数
① Python编程:Bokeh用于网页可视化
受保护_3
⑶统计数据
①力矩生成函数
② 平均值: E(X) = 1 / λ
○ 含义: 直观上可以看出1 / λ
③ 方差: VAR(X) = 1 / λ2
⑷ 失忆
①定义
② 示例:当电池续航时间服从指数分布时,现有使用时间不影响剩余续航时间
⑸ 示例
5.贝塔分布
⑴ beta函数:对于α、β>0,
⑵ 贝塔分布
图5. beta分布的概率密度函数
① Python编程: Bokeh用于网页可视化
受保护_4
② E(X) = α ÷ (α + β)
③ VAR(X) = αβ ÷ ((α + β)2(α + β + 1))
⑵与伽玛函数的关系
⑶ 特点
①交换律: B(α, β) = B(β, α)
②等价表达
③ 贝塔二项式分布
○ 具有 Beta 分布的事件重复多次时的成功次数分布
○ beta 二项式分布比二项式分布具有更大的方差
⑷ 广义贝塔分布
6.帕累托分布
⑴ 简单帕累托分布
①概率密度函数:对于形状参数a,
图 6. 简单 Pareto 分布的概率密度函数
○ Python编程: Bokeh用于网页可视化
受保护_5
> ②概率分布函数
⑵ 广义帕累托分布
①概率密度函数:对于尺度参数b,
②概率分布函数
7.物流配送
⑴ 简单的物流配送
①概率密度函数
图 7. 简单的物流分配
○ Python编程: Bokeh用于网页可视化
受保护_6
⑵广义物流配送
①概率密度函数
8.狄利克雷分布
⑴ 概述
① beta 分布的多元扩展,其中每个随机变量始终取 0 到 1 之间的值,并且它们的总和必须为 1。
② 由于 Dirichlet 分布中比例之和固定为 1 的限制,使用该分布的优化比其他分布的优化稍微复杂一些。
③ 它以其分析单纯形的能力而闻名。
⑵ 概率密度函数:对于 x = (x1, ···, xD) 和正参数 (λ1, ···, λD)
图 8. 狄利克雷分布
⑶ 狄利克雷-多项共轭
9.Gumbel 模型
⑴Gumbel-Softmax
① 令 z 为分类变量,类概率为 π1、π2、····、πk。
○ 例如,π = [0.2, 0.3, 0.5]
② 分类样本被编码为位于 (k−1) 维单纯形 Δ𝑘−1 上的 k 维单热向量。
○ 原因:由于所有概率之和为 1,因此自由度减少 1。
○ 例如,Class 1、2、3 分别对应 [1, 0, 0]、[0, 1, 0]、[0, 0, 1]。
③ Gumbel-Softmax 使用softmax 产生连续输出,但当𝜏 接近0 时,Gumbel-Softmax 输出最终变得与argmax 相同,从而产生one-hot 向量。
○ 由于信息不足,原始的 xi = log πi 经过 softmax 函数后,无法从 𝑦 重建出来,无法进行逆变换。
○ 为了弥补这一点,我们定义了一个等效的采样过程,在 softmax 之前减去最后一个元素 (xk + gk) ∕ 𝜏:
⑵ 甘贝尔模型
① 尺度 β = 1 且 z 处的平均值 μ 的 Gumbel 分布的概率密度为
② 我们首先推导“居中”多元 Gumbel 密度:
③ 我们现在可以通过边缘化 gk 来计算该分布的密度:
① 给定来自中心 Gumbel 分布的样本 u1, ···, uk-1,我们可以应用确定性变换 ℎ 从 Gumbel-Softmax 中生成样本的前 k−1 坐标:
② 这项工作的主要贡献是重新参数化 Gumbel-Softmax 分布,其相应的估计器提供了低方差路径分类分布的导数梯度。
③ 对于学习来说,在小温度(样本接近单热但梯度方差很大)和大温度(样本平滑但梯度方差很小)之间需要进行权衡。在实践中,我们从高温开始,然后退火到一个小但非零的温度。
④ Gumbel-Softmax 允许我们通过 y ~ q𝜙(𝑦 │ 𝑥) 进行反向传播以进行单样本梯度估计,并实现每个训练步骤的成本 𝒪(𝐷+𝐼+𝐺)(戏剧性的加速),其中𝐷、𝐼、𝐺 是计算量来自 q𝜙(𝑦 │ 𝑥)、q𝜙(𝑧 │ 𝑥, 𝑦) 和 p𝜙(𝑥 │ 𝑦, 𝑧) 的采样成本。
⑤ Gumbel-Softmax 和 ST Gumbel-Softmax 优于现有的随机梯度估计器:Score-Function (SF)、DARN、MuProp、Straight-Through (ST) 和 Slope-Annealed ST。
输入:2019.06.19 00:27