第 21 章.信息论
高级类别:【统计】【统计目录】(https://jb243.github.io/pages/1641)
1. 信息论
2. 变分推理
3. 现代信息论
1.信息论
⑴ 概述
①低概率事件:高信息量(令人惊讶)
② 高概率事件:低信息量(不足为奇)
⑵ 熵
① 问题情况:X 正在下雨/不下雨。 Y 多云/非多云
图。 1. 熵示例
② 统计学基本概念
③ 信息(信息内容)或不确定性(意外、意外、随机性)
○ 测量的数学不确定性量。
○ 当基数为2时,使用的单位是bits
○ 当底数为e(自然对数)时,使用的单位为nats
○ 特征 1. 如果 p(xi) = 1, I(xi) = 0
○ 特征 2. I(xi) ≥ 0
○ 特征 3. 如果 P(x = xi) < P(x = xj), I(xi) > I(xj)
○ 特征 4. 如果 xi 和 xj 独立,则 I(xixj) = I(xi) + I(xj)
④ 熵(自信息,香农熵)
○ 了解
○ 换句话说,熵定义为不确定性的平均值
○ 与物理学中的熵类似,随着无序度的增加,会获得更高的值:更高的熵意味着更高的异质性
○ 它将每个事件的意外值 (-log p(x)) 应用于每个事件的概率权重 (p(x))
○ 冗余度 = 最大熵 - 实际熵
○ 示例
○ 公平抛硬币:H = -0.5 log2 0.5 - 0.5 log2 0.5 = 1
○ 公平模具 **: H = 6 × (-(1/6) log2 (1/6)) = log2 6 = 2.58
○ 如果 X 服从均匀分布,则 H(X) = log n 成立
○ 源代码定理
○ 定义:对于很长的数据序列,如果压缩率最大化,则压缩数据的平均位数接近熵。
○ 换句话说,它指的是表示给定一组可能性所需的位数。
○ 存储在base log2时,表示位数;当存储在基数logk中时,它表示k元系统中所需的存储容量。
○ 卡夫不等式:确保每个实体都可以由唯一的位序列表示的约束。
○ 信源编码定理证明:对于平均位数 p1L1 + ··· + pnLn,
○ 特征 1. H(X) 是平移不变的
○ 当 Y = X + a 时,H(Y) = H(X) 成立,因为 pY(y) = pX(x)
○ 特征2. H(X) ≥ 0
○ 特征 3. Hb(X) = (logba) Ha(X) (其中 a 和 b 位于对数下)
○ logbp = (logba) logap» ○ Python代码
受保护_0
⑤ 联合熵
○ 特征1. H(X, Y) ≤ H(X) + H(Y):如果X和Y独立,则H(X, Y) = H(X) + H(Y)
⑥ 条件熵
图 2. 条件熵可视化
○ 特定条件的条件熵
○ 总条件熵
○ 信息增益(IG):知道信息X时阶数的增加
○ 信息瓶颈法(IB):利用信息论描述复杂性和准确性之间的权衡
○ 应用:例如,可以确定给定数据中的簇数。
○ 特征 1. 如果 X 和 Y 独立,则 H(Y | X) = H(Y)(参见 H(Y | X) ≤ H(Y))
○ 特征 2. H(Y | Y) = 0
○ 特征 3. H(X, Y) = H(X) + H(Y | X) = H(Y) + H(X | Y)(链式法则)
○ 特征 4. H(X, Y | Z) = H(X | Z) + H(Y | X, Z)
⑦ 互信息
图 3. 互信息可视化
○ 信息增益和互信息是等价的。
○ 特征 1. I(X; Y) = H(Y) - H(Y | X) = H(X) - H(X | Y)
○ 特征2. 互信息≥0(相等条件:X和Y独立)
○ 特征3. H(X | Y) ≤ H(X)(相等条件:X和Y独立)
○ 特征4. I(X; Y) ≤ H(X, Y): H(X, Y) - I(X; Y) 满足[数学距离]的定义(https://jb243.github.io/pages/1897)。
○ 应用1. 互信息可用于评估图像相似度。
○ 应用2. mRMR(最大相关性最小冗余):一种用于选择与输出具有高互信息而在它们之间具有低互信息的特征的技术。它常用于机器学习。 Matlab代码如下:
受保护_1
⑧ 相对熵(Kullback Leibler散度、KL散度、KLD)
○ 概述
○ 两个概率分布如何发散的度量。
○ 它表示旨在模仿真实分布的近似分布 p(x) 与真实分布 q(x) 之间的差异。»> ○ 通常,真实分布是复杂的概率分布函数,而近似分布则使用参数化模型表示。
○ 近似分布可以变得易于管理,通常类似于正态分布等简单分布。
○ 严格来说,不满足【数学距离】的定义(https://jb243.github.io/pages/1897)。
○ 特征1.不对称性:DKL(p(x) || q(x)) ≠ DKL(q(x) || p(x)) (∴违反了[数学距离]的定义(https://jb243.github.io/pages/1897#2-vector-space))
图 4. DKL(p || q) 和 DKL(q || p) 之间的差异
○ 特征2. D(p || q) ≥ 0(相等条件:p(x) = q(x))
○ 特征3. H(X) ≤ log n(其中n是X可以取的元素数量)
○ 应用。 确定与真实未知数据分布 q 具有最小 KL 距离的预测数据分布 p。
○ 最大化对数似然可以最小化 KL 距离。
○ 应用。 Jensen-Shannon 散度 (JSD)
⑨ 交叉熵
○ 定义:区分两个概率分布 p 和 q 所需的平均位数。
○ 在机器学习中,模型预测。
○ 特征1. -Σ pi log qi = H(p) + DKL(p || q)
○ 特征 2. 最小化 DKL(p || q) 与最小化交叉熵相同,因为 H(p) 是常数。
○ 特征3. 在pi服从均匀分布的假设下,最小化-Σ pi log qi时,这称为最大似然估计。
⑩ 渐近均分性质(AEP)
⑶ 比较 1. Rényi Entropy
① Hartley(最大)熵:对于由 M 个符号表示的源(例如,如果用字母表表示,M = 26)
②最小熵:与信号处理有关
③ Rényi 熵:包含香农熵 (α → 1; 根据 L’Hôpital 规则](https://jb243.github.io/pages/1810))、最大熵 (α → 0) 和最小熵 (α → ∞)
④ Rényi 散度:随着 α → ∞,Rényi 散度收敛为 KL 散度(∵ L’Hôpital 规则)
⑷ 比较2. 样本熵
①反映时间的动态度量
② 在信号处理中很重要
⑸ 比较 3. Gini impurity
① 熵不是唯一的度量,提出了基尼不纯度等替代度量。
② 基尼杂质考虑由每个样本的权重(P(xi))加权的错误标记概率(1 - P(xi))。
③ 随着给定数据变得更加无序,基尼杂质和熵都会增加:杂质的起源。
④(概念区分)经济学中的基尼系数
○ 该概念首次被引入来评估收入不平等:它不仅可以评估收入,还可以评估离散变量分布的不平等程度。
○ 随着基尼系数从经济学转移到机器学习和信息论领域,它意味着类似的不平等,但数学定义发生了变化。
○ 差异:如果变量的分布完全均匀,
○ 在经济学中,基尼系数变得极其平等,因此其值为0。
○ 在信息论中,基尼系数由于柯西-施瓦茨不等式而达到最大值。直观上,它变得最无序,从而达到最大值。
⑹ 比较 4. Connectivity index (CI)
① 在空间格子中,如果特定点与其最近邻点处于不同的簇中,则 CI 值增大。
② 因此,CI 值越高,异质性越高。
⑺ 比较 5. Simpson index
① 另一种基于信息论的度量,与香农熵并列。 D = Σi pi2
② 基于空间转录组学,两个随机点属于同一簇的概率(ref)
③ 辛普森指数越低,隐含异质性越高
⑻ 比较 6. Cluster modularity
① 基于空间转录组学,指示簇内斑点纯度(同质性)的指标(参考)
⑼ 比较 7. Lempel-Ziv complexity
⑽ 比较 8. Silhouette coefficient
⑾ 比较 9. Calinski-Harabasz index
2.变分推理
⑴ 概述
① 当观察到 A 时 B 是原因的概率,表示为 P(B | A),称为后验概率(参见贝叶斯定理)。
② 变分推理:通过引入更简单的变分分布并以减小两者差异的方式进行推理来推断复杂后验分布的方法。
⑵ ELBO(Evidence Lower Bound):变分推理的标准方法
① Jensen 不等式:对于像对数函数这样的凹函数,以下成立:
② 问题情况:对于给定的数据x和潜在变量z,很难直接计算模型的对数证据log p(x)。
③【数学公式】(https://mpatacchiola.github.io/blog/2021/01/25/intro-variational-inference.html):
» ○ ELBO(x) = 𝔼q(z) [log p(x,z)] - 𝔼q(z) [log q(z)]
○ ELBO = 𝔼q(zㅣx) [log p(x,z)] - 𝔼q(zㅣx) [log q(zㅣx)] 是更正式的形式。
○ 在变分推理中,最大化 ELBO 可以使不等式逼近等式。
○ 当等式成立时,p(x,z)/q(z) 相对于 z 变为常数。
○ p(x,z) / q(z) = 关于 z 的常数 ⇔ q(z) ∝ p(x,z) ⇔ q(z) = q(zㅣx) = p(x,z) / p(x) = p(zㅣx)
○ 结论: 最大化 ELBO 使得变分分布 q(zㅣx) 接近真实后验 p(zㅣx)。
④ 示例1
⑤ 示例2. 【变分自编码器(VAE)和图变分自编码器(GVAE)的损失函数】(https://jb243.github.io/pages/2432)
3。现代信息论
⑴ 历史
① Ludwig Boltzmann (1872):提出H定理来解释气体粒子的熵。
② Harry Nyquist (1924):量化了“智能”通过通信系统传播的速度。
③约翰·冯·诺依曼(1927):将吉布斯自由能扩展到量子力学。
④ Ralph Hartley (1928):用对数表示可区分信息的数量。
⑤ 阿兰·图灵(1940):引入 deciban 用于解密德国恩尼格玛密码。
⑥ Richard W. Hamming (1947):开发了汉明码。
⑦ Claude E. Shannon (1948):信息论的先驱。 传播的数学理论
⑧ Solomon Kullback & Richard Leibler (1951):引入 Kullback-Leibler 散度
⑨ David A. Huffman (1951):开发了霍夫曼编码。
⑩ Alexis Hocquenghem & Raj Chandra Bose & Dwijendra Kumar Ray-Chaudhuri (1960):开发了 BCH 代码。
⑪ Irving S. Reed 和 Gustave Solomon (1960):开发了 Reed-Solomon 代码。
⑫ Robert G. Gallager (1962):引入低密度奇偶校验。
⑬ Kolmogorov (1963):引入了 Kolmogorov 复杂性(最小描述长度)。
⑭ Abraham Lempel & Jacob Ziv (1977):开发了 Lempel-Ziv 压缩 (LZ77)。
⑮ Claude Berrou & Alain Glavieux & Punya Thitimajshima (1993):开发了 Turbo 代码。
⑯ Erdal Arıkan (2008):引入了极坐标码。
⑵ 类型1. 加密
① 霍夫曼码
② 香农码
③ Shannon-Fano-Elias码(字母码)
⑶ 类型 2. 压缩
① 唯一可解码(UD)
② 克拉夫不等式
⑷ 类型3. 网络信息论
⑸ 类型4. 量子信息论
输入:2021-11-10 22:28
修改: 2023-03-21 16:22