RCTD的理解和执行
推荐文章: 【生物信息学】【生物信息学分析内容】(https://jb243.github.io/pages/836)
1. 概述
2. 数学理论
3. 代码
4. 结果
5. 结论
1.概述
⑴ 现有空间转录组学的局限性
① 难以确定特定细胞类型的位置
○ 原因 1. 之所以会出现困难,是因为空间转录组点上不仅可以放置单个细胞,还可以放置数十到数百个细胞。
○ 原因2. 即使一个点上只放置了几个细胞,它们也不会被识别为单个细胞,而是被识别为一个新的单个细胞。
② 现有无监督标记依赖分析的缺点2
○ 缺点1. 无法控制平台效应、泊松采样、计数过度分散等问题。
○ 缺点2. 性能并没有明显优越。
③现有MIA(多模态交叉分析)的缺点3
○ 缺点1. 无法控制平台效应、泊松采样、计数过度分散等问题。
○ 缺点 2. 未在 Slide-seq 等大规模空间转录组学中进行验证。
○ 缺点3. 参数难以调整,导致偏向于增强或耗尽。
○ 缺点 4. 结果对参数变化很敏感。
○ 缺点1和缺点2是论文中强调的要点,而缺点3和缺点4是作者作为实践者的观点。
⑵ RCTD(鲁棒细胞类型分解)
① 特点:能够区分空间转录组数据中的特定细胞类型。监督。
② 意义1:与其他监督方法不同,它可以在特定点内区分多种细胞类型。
③ 意义2: 可以控制平台效应:如果不在监督方法中控制平台效应,技术变异性可能会阻碍生物信号的成功分析。
2.数学理论
⑴ 统计模型
① 本质上遵循泊松模型。
○ 即使 UMI 计数较低也适用,例如在 Slide-seq 中。
② i : 每个点。 1、…、我
③ j : 每个基因。 1、…、J
④ k : 每种细胞类型。 1、…、K
⑤ Yi,j : j 基因在点 i 的基因表达量(单位:计数)
⑥ λi,j : 反映平台效应和其他自然变异性的随机概率变量(单位:无)
⑦ Ni : 每个点的转录本总数,简称UMI(唯一分子标识符)
⑧ αi : 特定点固定效应
⑨ γj : 基因特异性固定效应
○ 特定平台,如 scRNA-seq、snRNA-seq、Slide-seq、Smart-seq。
○ 假设服从均值为 0、标准差为 σγ 的正态分布。
⑩ μk,j : k 细胞类型中 j 基因的平均表达量(单位:归一化表达量)
⑪ βi,k : 细胞类型 k 在位置 i 的权重
○ 条件1: βi,k + ··· + βi,K = 1
○ 条件2: βi,k ≥ 0
○ β值确定后,模型即可完成。
⑫ εi,j : 影响基因 j 在点 i 处的基因表达的随机效应。与基因特异性过度分散有关。
○ 假设服从均值为 0、标准差为 σε 的正态分布。
⑵ 监督学习
① 步骤1: 假设来自参考的μk,j,假设这些值在空间转录组学中是相同的。
○ 参考中细胞类型 k 的所有单细胞的基因 j 的平均表达量。
② 步骤 2: 排除细胞类型之间不存在显着差异的基因(∵ 以提高分析性能)。» ○ 30,000 个基因中大约有 5,000 个基因残留。
③ 步骤3: 有趣的是,γj 可以通过扩展以下公式来确定。
○ 子步骤1: Sj ≡ Σ(i = 1 to I) Yi,j
○ 子步骤 2:(第一个等式)使用 E(Y) = λ for Y ~ Poisson(λ) (泊松分布)
○ Yi,j 相对于 i 的样本均值之和也遵循泊松分布。以下为证明。
○ 矩生成函数的性质: ψX1+X2(t) = ψX1(t) × ψX2(t)
○ 假设: X1 ~ 泊松(λ1), X2 ~ 泊松(λ2)
○ ψX1(t) = exp(λ1et - λ1), ψX2(t) = exp(λ2et - λ2)
○ ΨX1+X2(t) = exp((λ1+λ2)et - (λ1+λ2))
○ 结论: X1 + X2 ~ Poisson(λ1 + λ2)
○ 子步骤 3:(第二个相等)
○ 3-1. 代入 λi,j
○ 3-2. 分离γj项:容易分离,因为它与i无关。
○ 3-3. 改变 Σ (i = 1 到 I) 和 Σ (k = 1 到 K) 的顺序
○ 子步骤4: 如果 I 足够大,Var(Bk,j) 收敛到 0(补充方法),使得 Bk,j ≒ βk。
○ 子步骤5:通过Sj的最大似然估计来估计β0、βk、σγ。
○ 子步骤 6: 使用 σγ 随机分配 γj。
④ 步骤 4: (RCTD)
○ 在特定点内改变基因 j 时,可以通过最大似然估计来估计 Yi,j 的 αi、βi,k、σε。
⑶ 优化监督学习
① 假设每个斑点最多有 2 个重叠细胞类型:即斑点是单峰或双峰。
② 当然,您可以限制每个点的最大细胞类型数量,甚至根本不设置任何限制。
③ 优化防止过度拟合:单峰每个点只有一种细胞类型,因此**双峰是理想的
3.代码: 在 R 中实现
⑴ 安装R
⑵ https://github.com/dmcable/RCTD
⑶ https://raw.githack.com/dmcable/RCTD/dev/vignettes/spatial-transcriptomics.html
⑷ 所需文件
图。 1. 元数据.csv
图。 2. BeadLocationsForR.csv
图。 3. MappedDGEForR.csv
4。结果
⑴ 挑战
① 重新确认现有无监督标记依赖分析的缺陷
○ 缺点 1: 共定位时标记基因的区别不明确,例如伯格曼细胞和浦肯野细胞 : 无监督学习在共定位时将它们识别为新的单细胞(图 1a)
○ 缺点2: 颗粒细胞分类时颗粒细胞分类错误(图1b、c)
② 重新确认现有监督分析的缺陷
○ 缺点:跨平台细胞类型分类性能不是特别出色(图1d、e)
③ RCTD可以解决这些问题
○ RCTD可以有效消除平台效应(图2b)
○ RCTD 显示出较高的跨平台单细胞分类精度(图 2c)
○ RCTD 即使在 Bergmann-Purkinje 双峰情况下也能很好地捕获 Bergmann 细胞(图 3c)
○ 如果参考细胞类型不存在,则通常会被错误分类为错误的细胞类型(补充图11)
⑵ 小鼠小脑样本
① 小鼠小脑结构
图。 4. 小鼠小脑的结构
② snRNA-seq 参考 × Slide-seqV2
○ 由此产生的细胞类型准确地反映了小脑的空间结构(图4a)
○ RCTD,设置单峰和双峰模式,可以正确区分浦肯野细胞和伯格曼细胞(图4b、4c)
○ 与实际标记的比较显示出良好的对应性(图 4d)
③ scRNA-seq 参考 × Slide-seqV2
○ snRNA-seq 参考 × Slide-seqV2 中细胞类型预测的一致性为 95.7%
○ 其他分析也证明了 RCTD 的一致性
⑶ 海马样本> ① 基于 RCTD 的中间神经元细胞类型和中间神经元标记物的共定位(图 5b)
② 基于 RCTD 的中间神经元标记和 Sst 表达内亚簇的共定位(图 5c、5d)
③ RCTD可以证明细胞环境对基因表达的影响(图6g)
5.结论
⑴ 限制 1: 假设平台效应对所有细胞类型都是常见的 : 研究细胞类型特异性的平台效应可能是必要的。
⑵ 限制 2: 空间数据中存在但参考中不存在的细胞类型可能会出现问题。
⑶问题:不清楚μk,j的单位是否为归一化表达。
⑷ 应用:可以扩展到空间转录组×空间转录组分析。
输入: 2021.06.04 00:34