第 5-2 章。距离和相似性的类型

推荐文章：【统计】第五章【统计】(https://jb243.github.io/pages/1625)

1. 概述

2. 规范概念的类型

3. 距离概念的类型

4. 相似性概念的类型

1.概述

⑴范数和距离的区别：经常互换使用。

① 规范

②距离函数（公制）

③ 如果定义了范数，则可以定义距离𝑑。

④ 然而，仅仅因为定义了距离，并不能保证相应范数的存在。

⑵ 距离与相似度的区别：经常互换使用。

① 共性：说两个数据点接近（距离短）就相当于说它们相似。换句话说，距离∝1/相似度。

② 共性：在机器学习中，损失函数、误差函数、成本函数等术语也指真实值与预测值之间的差异（∝ 1 /相似度）。

③ 区别：虽然距离函数在线性代数中有严格定义，但损失函数或相似性度量不一定满足该定义。

⑶ 各类距离和相似度的概念。

图1. 各种类型的距离和相似度的概念

2.规范概念的类型

⑴ 类型1. L1-范数

⑵ 类型 2. L2-范数

⑶ 类型3. p-范数：如果p变为无穷大，则p-范数称为d_∞范数。

图 2. 基于 p 值的 p 范数 = 1 区间的趋势

⑷ 类型 4. 弗罗贝尼乌斯范数

⑸ 类型 5. 操作员规范

⑹ 类型 6. 矩阵范数

3.距离概念的类型

⑴ 类型1. 【L1损失函数】(https://jb243.github.io/pages/1140) (L1-距离、MAE、城市街区距离、出租车距离、直线距离、曼哈顿距离、【稀疏学习】(https://jb243.github.io/pages/1768)、压缩感知）

① 换句话说，它是一种通过设置“ㄱ”和“ㄴ”形状的路径来计算距离的方法。

② MAPE 的定义类似如下：

⑵ 类型2. 【L2损失函数】(https://jb243.github.io/pages/1140) (L2-distance, MSE)：使用毕达哥拉斯定理的欧氏距离（标准）

① PSNR（峰值信噪比）：MSE（均方误差）的表示，单位为分贝。

⑶ 类型 3. 最大度量（切比雪夫距离、Supremum 距离、均匀距离、棋盘距离、𝑑_∞ 距离）

① 定义为∣∣x−y∣∣_∞，p-范数，其中p = ∞；让人想起棋子，国王。

② 在距离计算中，仅考虑主导维度（特征），而忽略其余维度。

③ 应用：【信号处理理论】中的样本熵（https://jb243.github.io/pages/1119）和【控制理论】中的鲁棒控制（https://jb243.github.io/pages/1909）。

⑷ 类型 4. 交叉熵：通常具有二进制交叉熵 (BCE)。

⑸ 类型5. 【信息论】中的距离(https://jb243.github.io/pages/2145)

⑹ 类型6. Delaunay三角剖分(Delaunay三角剖分)

图 3. delaunay 三角剖分的示例

① 形成三角形，使得没有点位于任何三角形的外接圆（穿过所有三个顶点的圆）内。

② 自动适应点密度的变化，在较密集的区域提供更多的连接，在较稀疏的区域提供更少的连接。

⑺ 类型7. 向量运算

① 7-1. 点积：向量内积

② 7-2. Hadamard 积：逐元素乘法

⑻ 类型 8. Linkage Metric: 定义簇之间的距离

⑼ 类型 9. 汉明距离

① 为每个数据点分配二进制值，并根据值的差异测量数据点之间的距离。这在信息论中经常使用。

② 两个字符串的长度应相同。

③ 示例：(0, 1, 1, 0, 0, 1) 和 (1, 1, 1, 1, 0, 0) 在第 1、4、6 位的值不同，因此汉明距离为 3。

⑽ 类型10.标准化距离：

① 由变量的测量单位标准化的距离。

② 公式：

d(i, j)² = (X_i - X_j)^T D^-1 (X_i - X_j)

○ X_i: 起点矩阵

○ X_j: 端点矩阵

○ D：样本方差（对角）矩阵

⑾ 类型 11. 马哈拉诺比斯距离**

图 4. 马氏距离

> ① 既考虑变量的标准化又考虑变量之间的相关性（数据分布的形状）的统计距离。

② 公式：当尝试确定两个数据点 X_i 和 X_j 之间的距离 d 时，使用以下公式：

d(i, j)² = (X_i - X_j)^T S^-1 (X_i - X_j)

○ X_i : 起始点矩阵

○ X_j : 端点矩阵

○ S : 样本协方差矩阵

○ S 是半正定矩阵，因为 (X_i - X_j)^tS^-1(X_i - X_j) ≥ 0 成立。

○ 如果数据包含因变量或者样本数量与数据维度相比较小，则 S 可以为零。

③ 优点：与欧几里德距离不同，它是无标度的，考虑了数据分布和相关性，并提供异常值检测等好处。

○ 如果欧氏距离是球面距离，则马氏距离是椭圆距离。

④ 局限性：假设数据呈正态性。计算样本协方差矩阵的过程是计算密集型的。

⑤Python代码

受保护_0

⑿ 类型 12. Levenshtein（编辑）距离

① 确定两个字符串 A 和 B 彼此相似程度的算法。

○ 更具体地说，是将一个序列更改为另一个序列所需的替换次数。

○ 字符串的长度可以不同，导致 Levenshtein 的下限是长度之间的差异。

② 公式

○ 对于字符串 a、b 以及索引 i（来自 a）和 j（来自 b）。

○ 1_(a≠b) 如果 a = b，则为 0，否则为 1。

⒀ 类型 13. 闵可夫斯基距离

① m 维 Minkowski 空间中的距离。

②当m=1时，相当于曼哈顿距离。

③ 当m=2时，相当于欧氏距离。

⒁ 类型 14. 豪斯多夫距离

① 形式化：对于两个集合 A = {a₁, …, a_p} 和 B = {b₁, …, b_q}，

H(A, B) = max(h(A, B), h(B, A))

②有向豪斯多夫距离：A和B中相距最远的两点之间的距离，

h(A, B) = max_{a ∈ A} min_{b ∈ B} || a - b ||

⒂ 15 型. 焦点丧失

① 形式化

FL = -(1 - P_t)^γ log (P_t)

⒃ 类型 16. Sørensen–Dice 系数（Dice 距离）

① 形式化：2 × ㅣA ∩ Bㅣ / (ㅣAㅣ + ㅣBㅣ)

⒄ 类型 17. Gromov-Wasserstein 距离（Kantorovich-Rubinstein 度量、Earth Mover 距离、EMD）

⒅ 类型 18. Jensen-Shannon 距离

⒆ 类型 19. 总变异 (TV) 距离

⒇ 类型 20. 柯尔莫哥洛夫-斯明洛夫距离

⒇ 类型 21. Hellinger 距离：需要概率密度函数的核密度估计。

⒇ 类型 22。胡贝尔损失函数

⒇ 类型 23. Bhattacharyya 损失

⒇ 类型 24. ELBO（证据下限）

⒇ 类型 25. 艾奇森距离：单纯形的距离概念

⒇ 类型 26. 布雷柯蒂斯距离

① i = 一个站点，j = 另一站点

② S_i = i 中的物种数，S_j = j 中的物种数> ③ C_ij = 物种中重叠位点的较少数量

⒇ 类型 27. 傅里叶损失

⒇ 类型 28. 库克距离：用于识别生物信息学中的异常值。

⒇ 类型 29. Fisher-Rao 距离

⒇ 类型 30. 格拉斯曼距离

⒇ 类型 31. Fréchet 起始距离 (FID)

⒇ 类型 32. Cramér 距离：最大平均距离 (MMD) 的特例

⒇ 类型 33. 能量距离：最大平均距离 (MMD) 的特例

4.相似概念的类型

⑴ 类型1. 【皮尔逊相关系数】(https://jb243.github.io/pages/1625)

① 给定 X 和 Y 的标准差 σ_x、σ_y，

② 特点

○ 在区间或比率尺度上测量的两个变量之间的相关性

○ 适用于连续变量

○ 假设正常

○ 实际应用广泛

⑵ 类型2. 【Spearman相关系数】(https://jb243.github.io/pages/1625)(Spearman相关系数)

①定义x’=rank(x)和y’=rank(x)，

② 特点

○ 测量两个序数尺度变量之间相关性的方法

○ 针对序数变量的非参数方法

○ 适用于含有多个零的数据

○ 对数据偏差或错误敏感

○ 与 Kendall 相关系数相比产生更高的值

⑶ 类型3. 【肯德尔相关系数】(https://jb243.github.io/pages/1625#)(肯德尔相关系数)

① 定义一致和不一致对的相关性，

② 特点

○ 测量两个序数尺度变量之间相关性的方法

○ 专为序数变量设计的非参数方法

○ 适用于含有多个零的数据

○ 对于小样本量或数据中有很多联系时有效

⑷ 类型4. 马太相关系数（MCC）

⑸ 类型 5. χ²

① 对于测量数据xm、ym和逼近函数f(x)，

⑹ 类型 6. 能源统计

① Székely、Rizzo 和 Bakirov 于 2007 年提出

② 距离协方差 V(X,Y) 和距离相关性 V(X,Y) / √V((X,X)·V(Y,Y))

⑺ 类型 7.SSIM

① 图像相似度比较算法

② Python代码

受保护_1

⑻ 类型 8. 互信息

①原理：给定第一张图像能否预测第二张图像？

② 用于分析从不同模态获得的两个图像之间的关系

○ 举例：MRI中，T1加权和T2加权图像存在很多倒点；相互信息考虑了这一点。

③代码

受保护_2

④ 【参考资料】(https://matthew-brett.github.io/teaching/mutual_information.html)⑼ 类型9. 相对熵(Kullback-Leibler散度、KL散度、KLD)

⑽ 类型 10. Sinkhorn 散度（熵 Wasserstein 距离）

⑾ 类型 11. Cressie-Read 功率发散

⑿ 类型12. Mr（阈值Mander的共定位系数）

① 两幅不同单色图像之间重叠像素的比例

② tMr（Thresholded Mr）：将低于特定阈值的值作为零值背景计算的 Mr

③ 背景：皮尔逊相关系数为负值，不适合比较单色图像

④ 特征 1. 范围从 0 到 1

⑤ 特征2. 对背景像素值敏感，但受重叠像素值影响不大

⑥ 特征 3. 取决于 Pearson 相关性

⑦ 步骤1. 首先，使用Pearson相关性获得p值并测试共定位

⑧ 步骤 2. 如果存在共定位，则计算 tM1 和 tM2 值

⑨ 用法：ImageJ

⒀ 类型 13. Jaccard 相似度（IoU，并集上的交集）

① 杰卡德分数：对于A、B两组，

② 取0~1之间的值：1表示两个集合相同，0表示没有共同元素。

③ 提花距离：1-提花相似度。满足距离的定义。用于名义变量距离的方法。

⒁ 类型 14. 余弦相似度

①余弦值：对于两个向量A和B，

⒂ 类型 15. 覆盖率分数

① 对于两组 A 和 B，

⒃ 类型 16. Fisher 精确检验

① 对于两组 A 和 B，

⒄ 类型 17. Faiss：Faiss 是一个用于高效相似性搜索和密集向量聚类的库。由元开发。

⒅ 类型18. Smith-Waterman相似性：用于评估核酸或氨基酸序列之间的相似性。

⒆ 类型 19. 最大信息系数 (MIC)

⒇ 类型20. 谱相似度：比较矩阵A和B时比较特征向量。与拉普拉斯矩阵和图论相关。

⒇ 类型 21. SCC（分层调整相关系数）：基于分层考虑权重的皮尔逊相关系数。

⒇ 类型 22. 谷本相似度

⒇ 类型 23. Stoyan 的标记相关函数

⒇ 类型 24. Morisita-Horn 指数

⒇ 类型 25. 有界 Lipschitz（或 Dudley）度量

⒇ 类型26. PSNR：图像相似度

⒇ 类型 27. FSIM：图像相似度。 SSIM 的变化

输入：2022.08.02 16:03

修改: 2023.08.23 14:28

5879

第 5-2 章。距离和相似性的类型

1.概述

2.规范概念的类型

3.距离概念的类型

4.相似概念的类型

results matching ""

No results matching ""