Korean, Edit

RCTD的理解和执行

推荐文章 【生物信息学】【生物信息学分析内容】(https://jb243.github.io/pages/836)


1. 概述

2. 数学理论

3. 代码

4. 结果

5. 结论



1.概述

⑴ 现有空间转录组学的局限性

① 难以确定特定细胞类型的位置

原因 1. 之所以会出现困难,是因为空间转录组点上不仅可以放置单个细胞,还可以放置数十到数百个细胞。

原因2. 即使一个点上只放置了几个细胞,它们也不会被识别为单个细胞,而是被识别为一个新的单个细胞。

② 现有无监督标记依赖分析的缺点2

缺点1. 无法控制平台效应、泊松采样、计数过度分散等问题。

缺点2. 性能并没有明显优越。

③现有MIA(多模态交叉分析)的缺点3

缺点1. 无法控制平台效应、泊松采样、计数过度分散等问题。

缺点 2. 未在 Slide-seq 等大规模空间转录组学中进行验证。

缺点3. 参数难以调整,导致偏向于增强或耗尽。

缺点 4. 结果对参数变化很敏感。

缺点1缺点2是论文中强调的要点,而缺点3缺点4是作者作为实践者的观点。

⑵ RCTD(鲁棒细胞类型分解)

① 特点:能够区分空间转录组数据中的特定细胞类型。监督。

意义1:与其他监督方法不同,它可以在特定点内区分多种细胞类型

意义2: 可以控制平台效应:如果不在监督方法中控制平台效应,技术变异性可能会阻碍生物信号的成功分析。



2.数学理论

⑴ 统计模型

① 本质上遵循泊松模型。

○ 即使 UMI 计数较低也适用,例如在 Slide-seq 中。

② i : 每个点。 1、…、我

③ j : 每个基因。 1、…、J

④ k : 每种细胞类型。 1、…、K

⑤ Yi,j : j 基因在点 i 的基因表达量(单位:计数)

⑥ λi,j : 反映平台效应和其他自然变异性的随机概率变量(单位:无)

⑦ Ni : 每个点的转录本总数,简称UMI(唯一分子标识符)

⑧ αi : 特定点固定效应

⑨ γj : 基因特异性固定效应

○ 特定平台,如 scRNA-seq、snRNA-seq、Slide-seq、Smart-seq。

○ 假设服从均值为 0、标准差为 σγ 的正态分布。

⑩ μk,j : k 细胞类型中 j 基因的平均表达量(单位:归一化表达量)

⑪ βi,k : 细胞类型 k 在位置 i 的权重

条件1: βi,k + ··· + βi,K = 1

条件2: βi,k ≥ 0

○ β值确定后,模型即可完成。

⑫ εi,j : 影响基因 j 在点 i 处的基因表达的随机效应。与基因特异性过度分散有关。

○ 假设服从均值为 0、标准差为 σε 的正态分布。

⑵ 监督学习

步骤1: 假设来自参考的μk,j,假设这些值在空间转录组学中是相同的。

○ 参考中细胞类型 k 的所有单细胞的基因 j 的平均表达量。

步骤 2: 排除细胞类型之间不存在显着差异的基因( 以提高分析性能)。» ○ 30,000 个基因中大约有 5,000 个基因残留。

步骤3: 有趣的是,γj 可以通过扩展以下公式来确定。

子步骤1: Sj ≡ Σ(i = 1 to I) Yi,j

子步骤 2:(第一个等式)使用 E(Y) = λ for Y ~ Poisson(λ) (泊松分布

○ Yi,j 相对于 i 的样本均值之和也遵循泊松分布。以下为证明。

○ 矩生成函数的性质: ψX1+X2(t) = ψX1(t) × ψX2(t)

假设: X1 ~ 泊松(λ1), X2 ~ 泊松(λ2)

○ ψX1(t) = exp(λ1et - λ1), ψX2(t) = exp(λ2et - λ2)

○ ΨX1+X2(t) = exp((λ1+λ2)et - (λ1+λ2))

结论: X1 + X2 ~ Poisson(λ1 + λ2)

子步骤 3:(第二个相等)

3-1. 代入 λi,j

3-2. 分离γj项:容易分离,因为它与i无关。

3-3. 改变 Σ (i = 1 到 I) 和 Σ (k = 1 到 K) 的顺序

子步骤4: 如果 I 足够大,Var(Bk,j) 收敛到 0(补充方法),使得 Bk,j ≒ βk。

子步骤5:通过Sj的最大似然估计来估计β0、βk、σγ。

子步骤 6: 使用 σγ 随机分配 γj。

步骤 4: (RCTD)

○ 在特定点内改变基因 j 时,可以通过最大似然估计来估计 Yi,j 的 αi、βi,k、σε。

⑶ 优化监督学习

① 假设每个斑点最多有 2 个重叠细胞类型:即斑点是单峰或双峰。

② 当然,您可以限制每个点的最大细胞类型数量,甚至根本不设置任何限制。

③ 优化防止过度拟合:单峰每个点只有一种细胞类型,因此**双峰是理想的



3.代码: 在 R 中实现

安装R

https://github.com/dmcable/RCTD

https://raw.githack.com/dmcable/RCTD/dev/vignettes/spatial-transcriptomics.html

⑷ 所需文件

图。 1. 元数据.csv

图。 2. BeadLocationsForR.csv

图。 3. MappedDGEForR.csv



4。结果

⑴ 挑战

① 重新确认现有无监督标记依赖分析的缺陷

缺点 1: 共定位时标记基因的区别不明确,例如伯格曼细胞和浦肯野细胞 无监督学习在共定位时将它们识别为新的单细胞(图 1a)

缺点2: 颗粒细胞分类时颗粒细胞分类错误(图1b、c)

② 重新确认现有监督分析的缺陷

○ 缺点:跨平台细胞类型分类性能不是特别出色(图1d、e)

③ RCTD可以解决这些问题

○ RCTD可以有效消除平台效应(图2b)

○ RCTD 显示出较高的跨平台单细胞分类精度(图 2c)

○ RCTD 即使在 Bergmann-Purkinje 双峰情况下也能很好地捕获 Bergmann 细胞(图 3c)

○ 如果参考细胞类型不存在,则通常会被错误分类为错误的细胞类型(补充图11)

⑵ 小鼠小脑样本

① 小鼠小脑结构

图。 4. 小鼠小脑的结构

② snRNA-seq 参考 × Slide-seqV2

○ 由此产生的细胞类型准确地反映了小脑的空间结构(图4a)

○ RCTD,设置单峰和双峰模式,可以正确区分浦肯野细胞和伯格曼细胞(图4b、4c)

○ 与实际标记的比较显示出良好的对应性(图 4d)

③ scRNA-seq 参考 × Slide-seqV2

○ snRNA-seq 参考 × Slide-seqV2 中细胞类型预测的一致性为 95.7%

○ 其他分析也证明了 RCTD 的一致性

⑶ 海马样本> ① 基于 RCTD 的中间神经元细胞类型和中间神经元标记物的共定位(图 5b)

② 基于 RCTD 的中间神经元标记和 Sst 表达内亚簇的共定位(图 5c、5d)

③ RCTD可以证明细胞环境对基因表达的影响(图6g)



5.结论

限制 1: 假设平台效应对所有细胞类型都是常见的 研究细胞类型特异性的平台效应可能是必要的。

限制 2: 空间数据中存在但参考中不存在的细胞类型可能会出现问题。

⑶问题不清楚μk,j的单位是否为归一化表达。

⑷ 应用可以扩展到空间转录组×空间转录组分析。



输入 2021.06.04 00:34

results matching ""

    No results matching ""