Korean, Edit

第 5-2 章。距离和相似性的类型

推荐文章:【统计】第五章【统计】(https://jb243.github.io/pages/1625)


1. 概述

2. 规范概念的类型

3. 距离概念的类型

4. 相似性概念的类型



1.概述

⑴范数和距离的区别:经常互换使用。

① 规范


스크린샷 2024-10-07 11 21 11


②距离函数(公制)


스크린샷 2024-10-07 11 21 24


③ 如果定义了范数,则可以定义距离𝑑。


스크린샷 2024-10-07 11 21 36


④ 然而,仅仅因为定义了距离,并不能保证相应范数的存在。

⑵ 距离与相似度的区别:经常互换使用。

① 共性:说两个数据点接近(距离短)就相当于说它们相似。换句话说,距离∝1/相似度。

② 共性:在机器学习中,损失函数、误差函数、成本函数等术语也指真实值与预测值之间的差异(∝ 1 /相似度)。

③ 区别:虽然距离函数在线性代数中有严格定义,但损失函数或相似性度量不一定满足该定义。

⑶ 各类距离和相似度的概念。


图片

图1. 各种类型的距离和相似度的概念



2.规范概念的类型

类型1. L1-范数


스크린샷 2024-10-07 11 22 04


类型 2. L2-范数


스크린샷 2024-10-07 11 22 25


类型3. p-范数:如果p变为无穷大,则p-范数称为d范数。


图片


图片

图 2. 基于 p 值的 p 范数 = 1 区间的趋势


类型 4. 弗罗贝尼乌斯范数


스크린샷 2025-09-21 오후 8 12 29


类型 5. 操作员规范


스크린샷 2025-09-21 오후 8 12 48


类型 6. 矩阵范数


스크린샷 2025-10-12 오후 2 58 52



3.距离概念的类型

类型1. 【L1损失函数】(https://jb243.github.io/pages/1140) (L1-距离、MAE、城市街区距离、出租车距离、直线距离、曼哈顿距离、【稀疏学习】(https://jb243.github.io/pages/1768)、压缩感知)


图片


① 换句话说,它是一种通过设置“ㄱ”和“ㄴ”形状的路径来计算距离的方法。

② MAPE 的定义类似如下:


스크린샷 2025-02-14 10 24 34


类型2. 【L2损失函数】(https://jb243.github.io/pages/1140) (L2-distance, MSE):使用毕达哥拉斯定理的欧氏距离(标准


图片


① PSNR(峰值信噪比):MSE(均方误差)的表示,单位为分贝。


스크린샷 2024-11-18 오전 10 59 00


类型 3. 最大度量(切比雪夫距离、Supremum 距离、均匀距离、棋盘距离、𝑑 距离)

① 定义为∣∣x−y∣∣,p-范数,其中p = ∞;让人想起棋子,国王。

② 在距离计算中,仅考虑主导维度(特征),而忽略其余维度。

③ 应用:【信号处理理论】中的样本熵(https://jb243.github.io/pages/1119)和【控制理论】中的鲁棒控制(https://jb243.github.io/pages/1909)。

类型 4. 交叉熵:通常具有二进制交叉熵 (BCE)。


图片


类型5. 【信息论】中的距离(https://jb243.github.io/pages/2145)


图片


类型6. Delaunay三角剖分(Delaunay三角剖分)


스크린샷 2025-03-24 오전 11 37 14

图 3. delaunay 三角剖分的示例


① 形成三角形,使得没有点位于任何三角形的外接圆(穿过所有三个顶点的圆)内。

② 自动适应点密度的变化,在较密集的区域提供更多的连接,在较稀疏的区域提供更少的连接。

类型7. 向量运算

7-1. 点积:向量内积

7-2. Hadamard 积:逐元素乘法

类型 8. Linkage Metric: 定义簇之间的距离

类型 9. 汉明距离

① 为每个数据点分配二进制值,并根据值的差异测量数据点之间的距离。这在信息论中经常使用。

② 两个字符串的长度应相同。

③ 示例:(0, 1, 1, 0, 0, 1) 和 (1, 1, 1, 1, 0, 0) 在第 1、4、6 位的值不同,因此汉明距离为 3。

类型10.标准化距离

① 由变量的测量单位标准化的距离。

② 公式:

d(i, j)2 = (Xi - Xj)T D-1 (Xi - Xj)

○ Xi: 起点矩阵

○ Xj: 端点矩阵

○ D:样本方差(对角)矩阵

类型 11. 马哈拉诺比斯距离**


图片

图 4. 马氏距离


> ① 既考虑变量的标准化又考虑变量之间的相关性(数据分布的形状)的统计距离。

② 公式:当尝试确定两个数据点 Xi 和 Xj 之间的距离 d 时,使用以下公式:

d(i, j)2 = (Xi - Xj)T S-1 (Xi - Xj)

○ Xi : 起始点矩阵

○ Xj : 端点矩阵

○ S : 样本协方差矩阵

○ S 是半正定矩阵,因为 (Xi - Xj)tS-1(Xi - Xj) ≥ 0 成立。

○ 如果数据包含因变量或者样本数量与数据维度相比较小,则 S 可以为零。

③ 优点:与欧几里德距离不同,它是无标度的,考虑了数据分布和相关性,并提供异常值检测等好处。

○ 如果欧氏距离是球面距离,则马氏距离是椭圆距离。

④ 局限性:假设数据呈正态性。计算样本协方差矩阵的过程是计算密集型的。

⑤Python代码


受保护_0


类型 12. Levenshtein(编辑)距离

① 确定两个字符串 A 和 B 彼此相似程度的算法。

○ 更具体地说,是将一个序列更改为另一个序列所需的替换次数。

○ 字符串的长度可以不同,导致 Levenshtein 的下限是长度之间的差异。

② 公式


图片


○ 对于字符串 a、b 以及索引 i(来自 a)和 j(来自 b)。

○ 1(a≠b) 如果 a = b,则为 0,否则为 1。

类型 13. 闵可夫斯基距离

① m 维 Minkowski 空间中的距离。

②当m=1时,相当于曼哈顿距离。

③ 当m=2时,相当于欧氏距离。

类型 14. 豪斯多夫距离

① 形式化:对于两个集合 A = {a1, …, ap} 和 B = {b1, …, bq},

H(A, B) = max(h(A, B), h(B, A))

②有向豪斯多夫距离:A和B中相距最远的两点之间的距离,

h(A, B) = maxa ∈ A minb ∈ B || a - b ||

15 型. 焦点丧失

① 形式化

FL = -(1 - Pt)γ log (Pt)

类型 16. Sørensen–Dice 系数(Dice 距离)

① 形式化:2 × ㅣA ∩ Bㅣ / (ㅣAㅣ + ㅣBㅣ)

类型 17. Gromov-Wasserstein 距离(Kantorovich-Rubinstein 度量、Earth Mover 距离、EMD)

类型 18. Jensen-Shannon 距离


스크린샷 2025-04-17 오후 2 12 11


类型 19. 总变异 (TV) 距离

类型 20. 柯尔莫哥洛夫-斯明洛夫距离

类型 21. Hellinger 距离:需要概率密度函数的核密度估计。

类型 22。胡贝尔损失函数

类型 23. Bhattacharyya 损失

类型 24. ELBO(证据下限)

类型 25. 艾奇森距离:单纯形的距离概念

类型 26. 布雷柯蒂斯距离


스크린샷 2025-01-20 10 49 45


① i = 一个站点,j = 另一站点

② Si = i 中的物种数,Sj = j 中的物种数> ③ Cij = 物种中重叠位点的较少数量

类型 27. 傅里叶损失

类型 28. 库克距离:用于识别生物信息学中的异常值。

类型 29. Fisher-Rao 距离

类型 30. 格拉斯曼距离

类型 31. Fréchet 起始距离 (FID)

类型 32. Cramér 距离:最大平均距离 (MMD) 的特例

类型 33. 能量距离:最大平均距离 (MMD) 的特例



4.相似概念的类型

类型1. 【皮尔逊相关系数】(https://jb243.github.io/pages/1625)

① 给定 X 和 Y 的标准差 σx、σy


图片


② 特点

○ 在区间或比率尺度上测量的两个变量之间的相关性

○ 适用于连续变量

○ 假设正常

○ 实际应用广泛

类型2. 【Spearman相关系数】(https://jb243.github.io/pages/1625)(Spearman相关系数)

①定义x’=rank(x)和y’=rank(x),


图片


② 特点

○ 测量两个序数尺度变量之间相关性的方法

○ 针对序数变量的非参数方法

○ 适用于含有多个零的数据

○ 对数据偏差或错误敏感

○ 与 Kendall 相关系数相比产生更高的值

类型3. 【肯德尔相关系数】(https://jb243.github.io/pages/1625#)(肯德尔相关系数)

① 定义一致和不一致对的相关性,


图片


② 特点

○ 测量两个序数尺度变量之间相关性的方法

○ 专为序数变量设计的非参数方法

○ 适用于含有多个零的数据

○ 对于小样本量或数据中有很多联系时有效

类型4. 马太相关系数(MCC)


图片


类型 5. χ2

① 对于测量数据xm、ym和逼近函数f(x),


图片


类型 6. 能源统计

① Székely、Rizzo 和 Bakirov 于 2007 年提出

② 距离协方差 V(X,Y) 和距离相关性 V(X,Y) / √V((X,X)·V(Y,Y))


스크린샷 2025-04-30 8 11 55


类型 7.SSIM

① 图像相似度比较算法


图片


Python代码


受保护_1


类型 8. 互信息

①原理:给定第一张图像能否预测第二张图像?

② 用于分析从不同模态获得的两个图像之间的关系

○ 举例:MRI中,T1加权和T2加权图像存在很多倒点;相互信息考虑了这一点。

③代码


受保护_2


④ 【参考资料】(https://matthew-brett.github.io/teaching/mutual_information.html)⑼ 类型9. 相对熵(Kullback-Leibler散度、KL散度、KLD)


图片


类型 10. Sinkhorn 散度(熵 Wasserstein 距离)

类型 11. Cressie-Read 功率发散

类型12. Mr(阈值Mander的共定位系数)

① 两幅不同单色图像之间重叠像素的比例

② tMr(Thresholded Mr):将低于特定阈值的值作为零值背景计算的 Mr

③ 背景:皮尔逊相关系数为负值,不适合比较单色图像

特征 1. 范围从 0 到 1

特征2. 对背景像素值敏感,但受重叠像素值影响不大

特征 3. 取决于 Pearson 相关性

步骤1. 首先,使用Pearson相关性获得p值并测试共定位

步骤 2. 如果存在共定位,则计算 tM1 和 tM2 值

⑨ 用法:ImageJ

类型 13. Jaccard 相似度(IoU,并集上的交集)

① 杰卡德分数:对于A、B两组,


图片


② 取0~1之间的值:1表示两个集合相同,0表示没有共同元素。

③ 提花距离:1-提花相似度。满足距离的定义。用于名义变量距离的方法。

类型 14. 余弦相似度

①余弦值:对于两个向量A和B,


图片


类型 15. 覆盖率分数

① 对于两组 A 和 B,


图片


类型 16. Fisher 精确检验

① 对于两组 A 和 B,


图片

图片


类型 17. Faiss:Faiss 是一个用于高效相似性搜索和密集向量聚类的库。由元开发。

类型18. Smith-Waterman相似性:用于评估核酸或氨基酸序列之间的相似性。

类型 19. 最大信息系数 (MIC)

类型20. 谱相似度:比较矩阵A和B时比较特征向量。与拉普拉斯矩阵和图论相关。

类型 21. SCC(分层调整相关系数):基于分层考虑权重的皮尔逊相关系数。

类型 22. 谷本相似度

类型 23. Stoyan 的标记相关函数

类型 24. Morisita-Horn 指数

类型 25. 有界 Lipschitz(或 Dudley)度量

类型26. PSNR:图像相似度

类型 27. FSIM:图像相似度。 SSIM 的变化



输入:2022.08.02 16:03

修改: 2023.08.23 14:28

results matching ""

    No results matching ""