第 5-2 章。距离和相似性的类型
推荐文章:【统计】第五章【统计】(https://jb243.github.io/pages/1625)
1. 概述
2. 规范概念的类型
3. 距离概念的类型
4. 相似性概念的类型
1.概述
⑴范数和距离的区别:经常互换使用。
① 规范
②距离函数(公制)
③ 如果定义了范数,则可以定义距离𝑑。
④ 然而,仅仅因为定义了距离,并不能保证相应范数的存在。
⑵ 距离与相似度的区别:经常互换使用。
① 共性:说两个数据点接近(距离短)就相当于说它们相似。换句话说,距离∝1/相似度。
② 共性:在机器学习中,损失函数、误差函数、成本函数等术语也指真实值与预测值之间的差异(∝ 1 /相似度)。
③ 区别:虽然距离函数在线性代数中有严格定义,但损失函数或相似性度量不一定满足该定义。
⑶ 各类距离和相似度的概念。
![]()
图1. 各种类型的距离和相似度的概念
2.规范概念的类型
⑴ 类型1. L1-范数
⑵ 类型 2. L2-范数
⑶ 类型3. p-范数:如果p变为无穷大,则p-范数称为d∞范数。
图 2. 基于 p 值的 p 范数 = 1 区间的趋势
⑷ 类型 4. 弗罗贝尼乌斯范数
⑸ 类型 5. 操作员规范
⑹ 类型 6. 矩阵范数
3.距离概念的类型
⑴ 类型1. 【L1损失函数】(https://jb243.github.io/pages/1140) (L1-距离、MAE、城市街区距离、出租车距离、直线距离、曼哈顿距离、【稀疏学习】(https://jb243.github.io/pages/1768)、压缩感知)
① 换句话说,它是一种通过设置“ㄱ”和“ㄴ”形状的路径来计算距离的方法。
② MAPE 的定义类似如下:
⑵ 类型2. 【L2损失函数】(https://jb243.github.io/pages/1140) (L2-distance, MSE):使用毕达哥拉斯定理的欧氏距离(标准)
① PSNR(峰值信噪比):MSE(均方误差)的表示,单位为分贝。
⑶ 类型 3. 最大度量(切比雪夫距离、Supremum 距离、均匀距离、棋盘距离、𝑑∞ 距离)
① 定义为∣∣x−y∣∣∞,p-范数,其中p = ∞;让人想起棋子,国王。
② 在距离计算中,仅考虑主导维度(特征),而忽略其余维度。
③ 应用:【信号处理理论】中的样本熵(https://jb243.github.io/pages/1119)和【控制理论】中的鲁棒控制(https://jb243.github.io/pages/1909)。
⑷ 类型 4. 交叉熵:通常具有二进制交叉熵 (BCE)。
⑸ 类型5. 【信息论】中的距离(https://jb243.github.io/pages/2145)
⑹ 类型6. Delaunay三角剖分(Delaunay三角剖分)
图 3. delaunay 三角剖分的示例
① 形成三角形,使得没有点位于任何三角形的外接圆(穿过所有三个顶点的圆)内。
② 自动适应点密度的变化,在较密集的区域提供更多的连接,在较稀疏的区域提供更少的连接。
⑺ 类型7. 向量运算
① 7-1. 点积:向量内积
② 7-2. Hadamard 积:逐元素乘法
⑻ 类型 8. Linkage Metric: 定义簇之间的距离
⑼ 类型 9. 汉明距离
① 为每个数据点分配二进制值,并根据值的差异测量数据点之间的距离。这在信息论中经常使用。
② 两个字符串的长度应相同。
③ 示例:(0, 1, 1, 0, 0, 1) 和 (1, 1, 1, 1, 0, 0) 在第 1、4、6 位的值不同,因此汉明距离为 3。
⑽ 类型10.标准化距离:
① 由变量的测量单位标准化的距离。
② 公式:
d(i, j)2 = (Xi - Xj)T D-1 (Xi - Xj)
○ Xi: 起点矩阵
○ Xj: 端点矩阵
○ D:样本方差(对角)矩阵
⑾ 类型 11. 马哈拉诺比斯距离**
图 4. 马氏距离
> ① 既考虑变量的标准化又考虑变量之间的相关性(数据分布的形状)的统计距离。
② 公式:当尝试确定两个数据点 Xi 和 Xj 之间的距离 d 时,使用以下公式:
d(i, j)2 = (Xi - Xj)T S-1 (Xi - Xj)
○ Xi : 起始点矩阵
○ Xj : 端点矩阵
○ S : 样本协方差矩阵
○ S 是半正定矩阵,因为 (Xi - Xj)tS-1(Xi - Xj) ≥ 0 成立。
○ 如果数据包含因变量或者样本数量与数据维度相比较小,则 S 可以为零。
③ 优点:与欧几里德距离不同,它是无标度的,考虑了数据分布和相关性,并提供异常值检测等好处。
○ 如果欧氏距离是球面距离,则马氏距离是椭圆距离。
④ 局限性:假设数据呈正态性。计算样本协方差矩阵的过程是计算密集型的。
⑤Python代码
受保护_0
⑿ 类型 12. Levenshtein(编辑)距离
① 确定两个字符串 A 和 B 彼此相似程度的算法。
○ 更具体地说,是将一个序列更改为另一个序列所需的替换次数。
○ 字符串的长度可以不同,导致 Levenshtein 的下限是长度之间的差异。
② 公式
○ 对于字符串 a、b 以及索引 i(来自 a)和 j(来自 b)。
○ 1(a≠b) 如果 a = b,则为 0,否则为 1。
⒀ 类型 13. 闵可夫斯基距离
① m 维 Minkowski 空间中的距离。
②当m=1时,相当于曼哈顿距离。
③ 当m=2时,相当于欧氏距离。
⒁ 类型 14. 豪斯多夫距离
① 形式化:对于两个集合 A = {a1, …, ap} 和 B = {b1, …, bq},
H(A, B) = max(h(A, B), h(B, A))
②有向豪斯多夫距离:A和B中相距最远的两点之间的距离,
h(A, B) = maxa ∈ A minb ∈ B || a - b ||
⒂ 15 型. 焦点丧失
① 形式化
FL = -(1 - Pt)γ log (Pt)
⒃ 类型 16. Sørensen–Dice 系数(Dice 距离)
① 形式化:2 × ㅣA ∩ Bㅣ / (ㅣAㅣ + ㅣBㅣ)
⒄ 类型 17. Gromov-Wasserstein 距离(Kantorovich-Rubinstein 度量、Earth Mover 距离、EMD)
⒅ 类型 18. Jensen-Shannon 距离
⒆ 类型 19. 总变异 (TV) 距离
⒇ 类型 20. 柯尔莫哥洛夫-斯明洛夫距离
⒇ 类型 21. Hellinger 距离:需要概率密度函数的核密度估计。
⒇ 类型 22。胡贝尔损失函数
⒇ 类型 23. Bhattacharyya 损失
⒇ 类型 24. ELBO(证据下限)
⒇ 类型 25. 艾奇森距离:单纯形的距离概念
⒇ 类型 26. 布雷柯蒂斯距离
① i = 一个站点,j = 另一站点
② Si = i 中的物种数,Sj = j 中的物种数> ③ Cij = 物种中重叠位点的较少数量
⒇ 类型 27. 傅里叶损失
⒇ 类型 28. 库克距离:用于识别生物信息学中的异常值。
⒇ 类型 29. Fisher-Rao 距离
⒇ 类型 30. 格拉斯曼距离
⒇ 类型 31. Fréchet 起始距离 (FID)
⒇ 类型 32. Cramér 距离:最大平均距离 (MMD) 的特例
⒇ 类型 33. 能量距离:最大平均距离 (MMD) 的特例
4.相似概念的类型
⑴ 类型1. 【皮尔逊相关系数】(https://jb243.github.io/pages/1625)
① 给定 X 和 Y 的标准差 σx、σy,
② 特点
○ 在区间或比率尺度上测量的两个变量之间的相关性
○ 适用于连续变量
○ 假设正常
○ 实际应用广泛
⑵ 类型2. 【Spearman相关系数】(https://jb243.github.io/pages/1625)(Spearman相关系数)
①定义x’=rank(x)和y’=rank(x),
② 特点
○ 测量两个序数尺度变量之间相关性的方法
○ 针对序数变量的非参数方法
○ 适用于含有多个零的数据
○ 对数据偏差或错误敏感
○ 与 Kendall 相关系数相比产生更高的值
⑶ 类型3. 【肯德尔相关系数】(https://jb243.github.io/pages/1625#)(肯德尔相关系数)
① 定义一致和不一致对的相关性,
② 特点
○ 测量两个序数尺度变量之间相关性的方法
○ 专为序数变量设计的非参数方法
○ 适用于含有多个零的数据
○ 对于小样本量或数据中有很多联系时有效
⑷ 类型4. 马太相关系数(MCC)
⑸ 类型 5. χ2
① 对于测量数据xm、ym和逼近函数f(x),
⑹ 类型 6. 能源统计
① Székely、Rizzo 和 Bakirov 于 2007 年提出
② 距离协方差 V(X,Y) 和距离相关性 V(X,Y) / √V((X,X)·V(Y,Y))
⑺ 类型 7.SSIM
① 图像相似度比较算法
② Python代码
受保护_1
⑻ 类型 8. 互信息
①原理:给定第一张图像能否预测第二张图像?
② 用于分析从不同模态获得的两个图像之间的关系
○ 举例:MRI中,T1加权和T2加权图像存在很多倒点;相互信息考虑了这一点。
③代码
受保护_2
④ 【参考资料】(https://matthew-brett.github.io/teaching/mutual_information.html)⑼ 类型9. 相对熵(Kullback-Leibler散度、KL散度、KLD)
⑽ 类型 10. Sinkhorn 散度(熵 Wasserstein 距离)
⑾ 类型 11. Cressie-Read 功率发散
⑿ 类型12. Mr(阈值Mander的共定位系数)
① 两幅不同单色图像之间重叠像素的比例
② tMr(Thresholded Mr):将低于特定阈值的值作为零值背景计算的 Mr
③ 背景:皮尔逊相关系数为负值,不适合比较单色图像
④ 特征 1. 范围从 0 到 1
⑤ 特征2. 对背景像素值敏感,但受重叠像素值影响不大
⑥ 特征 3. 取决于 Pearson 相关性
⑦ 步骤1. 首先,使用Pearson相关性获得p值并测试共定位
⑧ 步骤 2. 如果存在共定位,则计算 tM1 和 tM2 值
⑨ 用法:ImageJ
⒀ 类型 13. Jaccard 相似度(IoU,并集上的交集)
① 杰卡德分数:对于A、B两组,
② 取0~1之间的值:1表示两个集合相同,0表示没有共同元素。
③ 提花距离:1-提花相似度。满足距离的定义。用于名义变量距离的方法。
⒁ 类型 14. 余弦相似度
①余弦值:对于两个向量A和B,
⒂ 类型 15. 覆盖率分数
① 对于两组 A 和 B,
⒃ 类型 16. Fisher 精确检验
① 对于两组 A 和 B,
⒄ 类型 17. Faiss:Faiss 是一个用于高效相似性搜索和密集向量聚类的库。由元开发。
⒅ 类型18. Smith-Waterman相似性:用于评估核酸或氨基酸序列之间的相似性。
⒆ 类型 19. 最大信息系数 (MIC)
⒇ 类型20. 谱相似度:比较矩阵A和B时比较特征向量。与拉普拉斯矩阵和图论相关。
⒇ 类型 21. SCC(分层调整相关系数):基于分层考虑权重的皮尔逊相关系数。
⒇ 类型 22. 谷本相似度
⒇ 类型 23. Stoyan 的标记相关函数
⒇ 类型 24. Morisita-Horn 指数
⒇ 类型 25. 有界 Lipschitz(或 Dudley)度量
⒇ 类型26. PSNR:图像相似度
⒇ 类型 27. FSIM:图像相似度。 SSIM 的变化
输入:2022.08.02 16:03
修改: 2023.08.23 14:28