RCTD的理解和执行

推荐文章：【生物信息学】【生物信息学分析内容】(https://jb243.github.io/pages/836)

1. 概述

2. 数学理论

3. 代码

4. 结果

5. 结论

1.概述

⑴ 现有空间转录组学的局限性

① 难以确定特定细胞类型的位置

○ 原因 1. 之所以会出现困难，是因为空间转录组点上不仅可以放置单个细胞，还可以放置数十到数百个细胞。

○ 原因2. 即使一个点上只放置了几个细胞，它们也不会被识别为单个细胞，而是被识别为一个新的单个细胞。

② 现有无监督标记依赖分析的缺点2

○ 缺点1. 无法控制平台效应、泊松采样、计数过度分散等问题。

○ 缺点2. 性能并没有明显优越。

③现有MIA（多模态交叉分析）的缺点3

○ 缺点1. 无法控制平台效应、泊松采样、计数过度分散等问题。

○ 缺点 2. 未在 Slide-seq 等大规模空间转录组学中进行验证。

○ 缺点3. 参数难以调整，导致偏向于增强或耗尽。

○ 缺点 4. 结果对参数变化很敏感。

○ 缺点1和缺点2是论文中强调的要点，而缺点3和缺点4是作者作为实践者的观点。

⑵ RCTD（鲁棒细胞类型分解）

① 特点：能够区分空间转录组数据中的特定细胞类型。监督。

② 意义1：与其他监督方法不同，它可以在特定点内区分多种细胞类型。

③ 意义2： 可以控制平台效应：如果不在监督方法中控制平台效应，技术变异性可能会阻碍生物信号的成功分析。

2.数学理论

⑴ 统计模型

① 本质上遵循泊松模型。

○ 即使 UMI 计数较低也适用，例如在 Slide-seq 中。

② i : 每个点。 1、…、我

③ j : 每个基因。 1、…、J

④ k : 每种细胞类型。 1、…、K

⑤ Yi,j : j 基因在点 i 的基因表达量（单位：计数）

⑥ λi,j : 反映平台效应和其他自然变异性的随机概率变量（单位：无）

⑦ Ni : 每个点的转录本总数，简称UMI（唯一分子标识符）

⑧ αi : 特定点固定效应

⑨ γj : 基因特异性固定效应

○ 特定平台，如 scRNA-seq、snRNA-seq、Slide-seq、Smart-seq。

○ 假设服从均值为 0、标准差为 σγ 的正态分布。

⑩ μk,j : k 细胞类型中 j 基因的平均表达量（单位：归一化表达量）

⑪ βi,k : 细胞类型 k 在位置 i 的权重

○ 条件1： βi,k + ··· + βi,K = 1

○ 条件2： βi,k ≥ 0

○ β值确定后，模型即可完成。

⑫ εi,j : 影响基因 j 在点 i 处的基因表达的随机效应。与基因特异性过度分散有关。

○ 假设服从均值为 0、标准差为 σε 的正态分布。

⑵ 监督学习

① 步骤1： 假设来自参考的μk,j，假设这些值在空间转录组学中是相同的。

○ 参考中细胞类型 k 的所有单细胞的基因 j 的平均表达量。

② 步骤 2： 排除细胞类型之间不存在显着差异的基因（∵ 以提高分析性能）。» ○ 30,000 个基因中大约有 5,000 个基因残留。

③ 步骤3： 有趣的是，γj 可以通过扩展以下公式来确定。

○ 子步骤1： Sj ≡ Σ(i = 1 to I) Yi,j

○ 子步骤 2：（第一个等式）使用 E(Y) = λ for Y ~ Poisson(λ) （泊松分布）

○ Yi,j 相对于 i 的样本均值之和也遵循泊松分布。以下为证明。

○ 矩生成函数的性质： ψX1+X2(t) = ψX1(t) × ψX2(t)

○ 假设： X1 ~ 泊松(λ1), X2 ~ 泊松(λ2)

○ ψX1(t) = exp(λ1et - λ1), ψX2(t) = exp(λ2et - λ2)

○ ΨX1+X2(t) = exp((λ1+λ2)et - (λ1+λ2))

○ 结论： X1 + X2 ~ Poisson(λ1 + λ2)

○ 子步骤 3：（第二个相等）

○ 3-1. 代入 λi,j

○ 3-2. 分离γj项：容易分离，因为它与i无关。

○ 3-3. 改变 Σ (i = 1 到 I) 和 Σ (k = 1 到 K) 的顺序

○ 子步骤4： 如果 I 足够大，Var(Bk,j) 收敛到 0（补充方法），使得 Bk,j ≒ βk。

○ 子步骤5：通过Sj的最大似然估计来估计β0、βk、σγ。

○ 子步骤 6： 使用 σγ 随机分配 γj。

④ 步骤 4： (RCTD)

○ 在特定点内改变基因 j 时，可以通过最大似然估计来估计 Yi,j 的 αi、βi,k、σε。

⑶ 优化监督学习

① 假设每个斑点最多有 2 个重叠细胞类型：即斑点是单峰或双峰。

② 当然，您可以限制每个点的最大细胞类型数量，甚至根本不设置任何限制。

③ 优化防止过度拟合：单峰每个点只有一种细胞类型，因此**双峰是理想的

3.代码：在 R 中实现

⑴ 安装R

⑵ https://github.com/dmcable/RCTD

⑶ https://raw.githack.com/dmcable/RCTD/dev/vignettes/spatial-transcriptomics.html

⑷ 所需文件

图。 1. 元数据.csv

图。 2. BeadLocationsForR.csv

图。 3. MappedDGEForR.csv

4。结果

⑴ 挑战

① 重新确认现有无监督标记依赖分析的缺陷

○ 缺点 1： 共定位时标记基因的区别不明确，例如伯格曼细胞和浦肯野细胞：无监督学习在共定位时将它们识别为新的单细胞（图 1a）

○ 缺点2： 颗粒细胞分类时颗粒细胞分类错误（图1b、c）

② 重新确认现有监督分析的缺陷

○ 缺点：跨平台细胞类型分类性能不是特别出色（图1d、e）

③ RCTD可以解决这些问题

○ RCTD可以有效消除平台效应（图2b）

○ RCTD 显示出较高的跨平台单细胞分类精度（图 2c）

○ RCTD 即使在 Bergmann-Purkinje 双峰情况下也能很好地捕获 Bergmann 细胞（图 3c）

○ 如果参考细胞类型不存在，则通常会被错误分类为错误的细胞类型（补充图11）

⑵ 小鼠小脑样本

① 小鼠小脑结构

图。 4. 小鼠小脑的结构

② snRNA-seq 参考 × Slide-seqV2

○ 由此产生的细胞类型准确地反映了小脑的空间结构（图4a）

○ RCTD，设置单峰和双峰模式，可以正确区分浦肯野细胞和伯格曼细胞（图4b、4c）

○ 与实际标记的比较显示出良好的对应性（图 4d）

③ scRNA-seq 参考 × Slide-seqV2

○ snRNA-seq 参考 × Slide-seqV2 中细胞类型预测的一致性为 95.7%

○ 其他分析也证明了 RCTD 的一致性

⑶ 海马样本> ① 基于 RCTD 的中间神经元细胞类型和中间神经元标记物的共定位（图 5b）

② 基于 RCTD 的中间神经元标记和 Sst 表达内亚簇的共定位（图 5c、5d）

③ RCTD可以证明细胞环境对基因表达的影响（图6g）

5.结论

⑴ 限制 1： 假设平台效应对所有细胞类型都是常见的：研究细胞类型特异性的平台效应可能是必要的。

⑵ 限制 2： 空间数据中存在但参考中不存在的细胞类型可能会出现问题。

⑶问题：不清楚μk,j的单位是否为归一化表达。

⑷ 应用：可以扩展到空间转录组×空间转录组分析。

输入： 2021.06.04 00:34

7109

RCTD的理解和执行

1.概述

2.数学理论

3.代码：在 R 中实现

4。结果

5.结论

results matching ""

No results matching ""

RCTD的理解和执行

1.概述

2.数学理论

3.代码： 在 R 中实现

4。结果

5.结论

results matching ""

No results matching ""

3.代码：在 R 中实现