RNA 测序质量控制 (QC)
推荐文章:【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)
1. 实验QC
2. 数据QC
3. 故障排除
a. 基因组项目和测序技术
b. 转录组分析管道
1.实验QC(样品级质量控制)
⑴ 定义:组织质量的衡量标准
⑵ RNA测序流程
① 步骤 1. RNA 纯化:用 DNase 处理以去除 DNA。
② 步骤 2. Poly(A) 选择:富集聚腺苷酸化 RNA。
③ 步骤 3. 片段化:将 RNA 剪切成 200–400 nt 的文库插入片段大小。
④ 步骤 4. cDNA 合成:将 RNA 转化为互补 DNA (cDNA)。
⑤ 步骤 5. cDNA 处理:连接接头、扩增并添加条形码。
⑥ 步骤 6. 测序:对片段的一端或两端进行测序,通常每次读取 50、100 或 150 nt。
⑦ 步骤 7. 读段映射:将测序读段与基因组对齐。
⑶ 类型 1. RIN(RNA 完整性编号)
①背景知识:mRNA占总RNA的比例不到3%。 rRNA占80%以上(真核细胞中主要是28S[2kb]和18S[5kb])。
② 采用 Agilent 2100 生物分析仪测量。
③ RIN算法:利用18S与总RNA的比值、28S与总RNA的比值、18S归一化高度等特征。
④ RIN = 10:完整 RNA。
⑤ RIN = 1:RNA完全降解。
⑥ RIN > 7:通常认为适合 RNA-seq 的质量水平。
⑷ 类型 2. DV200:对于 FFPE 组织,测量 200 nt 左右的片段百分比,因为 RNA 在 FFPE 组织中断裂
⑸ 类型 3. Cq 值
⑹ 类型 4. 通过吸光度比进行核酸纯度定量
① 260 nm / 280 nm 比率
○ 纯DNA:~1.8
○ 纯RNA:~2.0
○ 260 nm / 280 nm 比率低表明存在蛋白质或苯酚,它们在 280 nm 处有吸收。
② 260 nm/230 nm 比值
○ 纯 DNA/RNA 分子:~2-2.2
○ 260 nm / 230 nm 比率较低表明存在其他污染物。
⑺ 类型 5. 核酸重量定量
① 使用 miRNeasy Mini Kit (QIAGEN) 或类似方法提取 RNA。
② RNA重量标准:至少250ng。
⑻ 类型 6. RNA 质量评分 (RQS)
⑼ 类型 7. ChIP-seq 实验 QC
① ChIP 级单克隆抗体:通过 ChIP-seq 进行预测试。所测试的商业生产抗体中有 20-30% 无法满足 ChIP-seq 要求。
② qPCR:最好使用 ChIP 样本测试阳性对照区域。希望检测到比 IgG(非特异性抗体)富集 >10-12 倍的结果。
③ 生物素化转录因子:允许链霉亲和素上的因子下拉。独立于抗体。
④ CUT&RUN、CUT&Tag 和 ChIP-exo 是提高 ChIP-seq 中峰的分辨率和信噪比的方法。
⑽ 类型 8. ATAC-seq 实验 QC
① Tn5 浓度:相对于 DNA 浓度,较高的 Tn5 浓度会增加启动子和增强子处的 ATAC-seq 信号强度,同时减小片段大小。
② 测序通道簇密度:改变片段长度分布和 TSS 富集。
⑾ 类型 9. 空间转录组学实验 QC(参考)
表。 1. 空间转录组学实验QC
①新鲜冰冻组织比FFPE具有更高的RNA完整性,但组织形态质量较差。
② 对于 FFPE 样品,DV200 是更合适的指标。> ③ 与基于斑点的 ST 方法相比,Xenium 和 CosMx 等基于图像的空间转录组学平台可以更好地耐受 RNA 降解。
2.数据QC(序列级质量控制)
⑴ 定义:评估数据质量并根据需要进行改进
⑵ 类型1. 数据QC Metrics:用于通过与手册或其他数据集比较来进行外部有效性确认
① QC 指标
○ 在dUTP方法中,“_1.fastq”代表第一链(反义),“_2.fastq”代表第二链(有义;原始RNA序列)
○ 基础质量
○ 映射率
○ 可映射性过滤器
○ 类型 1. 唯一性:每个序列从特定碱基开始且具有特定长度的唯一性
○ 类型 2. 比对性:k-mer 序列如何独特地与基因组区域比对(最多允许 2 个不匹配)
○ 可映射性分数:S = 1 / 在基因组中找到的匹配数
○ 长读长可以解决高度相似区域之间的映射问题:无论读长如何,基因组的某些区域都很麻烦。
○ 非编码RNA比例
○ 非编码RNA比例高表明RNA质量较低。
○ GC含量
○ 高 GC 含量:表明潜在的 rRNA 污染。在这种情况下,过滤掉5S、18S、28S rRNA
○ GC 含量低:表明逆转录存在潜在问题
○ 与CpG岛有关。
○ 阅读重复内容
○ PCR 重复项:重复项,仅是 PCR 过程中相同核酸分子的复制。高重复表明 RNA 质量较低。
○ 如果序列完全相同,则视为 PCR 重复。如果它们只是相似,则它们被视为生物重复。
○ 在双端实验中,重复发生在双端水平。
○ 一般来说,DNA-seq涉及去除重复,而RNA-seq则不然:在RNA-seq中,相同的序列可能会重复出现,不仅是由于技术上的重复,还因为高表达转录本或短基因。删除这些生物重复可以减少数据的动态范围或降低统计功效。
○ 重复率增加的可能性可能会随着 PCR 过程中循环次数的增加而增加:通过检查重复率与 PCR 循环次数之间的相关性,可以区分技术重复和生物重复。
○ 删除重复项的工具:Samtools、Picard、Trimmomatic、Trim Galore!、fastp
○ 独特分子(UMI)
○ 如果独特分子的比例低于 10%,RNA 质量会显着降低
○ 测序深度
○ 读取次数
○ 如果是选择性剪接或等位基因特异性表达:建议 >5000 万次读取
○ 核糖耗尽文库的 DEG 分析:建议总读数约为 50-6000 万次
○ 与 Poly-A 选择的文库相比,建议去核糖文库的测序深度是 Poly-A 选择的文库的两倍,因为去核糖的文库可以捕获 Poly-A 选择的文库无法捕获的更多种类的 RNA(例如,tRNA、rRNA、不成熟的 RNA)。
○ 测序读长
○ 如果片段太小,则接头结合开始:在这种情况下进行接头修剪
图1. 片段较短时读取适配器的原因
○ 与短读长测序相比,长读长测序的优点:每个核苷酸的成本更低、作图更准确、识别剪接点的能力、检测等位基因特异性表达的能力、解析重复序列的能力。»> ○ 与短读长测序相比,长读长测序的缺点:总体成本较高,每次读取的成本较高,需要更多的接头修剪。长读长测序(PacBio、Oxford Nanopore)由于其测序方法涉及重复读取和单分子测序,因此更可能含有接头序列。
○ 适配器顺序
○ 问题 1: 由于接头序列是人工的,它们可能会导致比对和变体调用失败或引入偏差。
○ 问题 2: 接头序列包含相同的序列,导致覆盖率分析和差异基因表达 (DEG) 分析出现偏差。
○ 要删除接头序列,可以使用 AdaptorRemoval、Cutadapt、Trimmomatic 和 bbduk.sh 等工具。
○ 外显子比率
○ 对于poly-A(+) RNA-seq,外显子区域占reads的50% ~ 70%
○ 对于rRNA(-) RNA-seq,外显子reads的比例减少
○ 双端与单端
○ 单端读取:每个文库片段仅从单端测序。
○ 配对末端读取:每个文库片段从两端测序。
○ 双端 (PE) 读取比单端 (SE) 读取更准确,但价格大约是单端 (SE) 读取的两倍。
○ 如果目标只是计算 DEG 分析的基因计数,SE 就足够了。
○ 当 RNA 显着降解时,建议使用 SE。
○ 最好避免在短片段上使用 PE,以防止因对相同核苷酸进行测序而导致效率低下。
图 2. 双端 (PE) 测序中可能出现的效率低下问题
○ 配对读取
○ 较长的 DNA 片段被环化,并对来自联合区域的读数进行测序(两端)。
○ 链特异性 (ssRNA-seq)
○ 可以正向或反向。
○ Poly-A 选择与 Ribo 耗尽
○ 核糖耗尽文库的优点
○ 即使在 RNA 降解的情况下也能工作:cDNA 片段不均匀且短。 Poly-A 选择高度偏向 3’ 端,因此准确性较低。
○ 适合研究非编码RNA。
○ 核糖耗尽文库的缺点
○ 贵。
○ 包含大量无意义的读取。
② ChIP-seq 的 QC 指标
○ 映射比例
○ Read 深度:ENCODE 建议 TF(组蛋白修饰)≥1000 万个唯一映射的 read。
○ 库复杂性
○ 背景均匀性(有偏差)
○ 【GC峰会偏差】(https://www.sciencedirect.com/science/article/pii/S1046202320300591)
○ qPCR 富集
○ 片段大小分布
○ 通过 NanoDrop 输入 DNA 质量
○ 【互相关分析】(https://pmc.ncbi.nlm.nih.gov/articles/PMC3431496/):NSC(归一化链系数)、RSC(相对链相关性)
○ FRiP(峰值中的读数分数)(ref1、ref2)、RUP(峰值下的读数):ChIP-seq 数据集中落入峰值的读数比例。 ENCODE 建议 FRiP (RUP) ≥ 1%。
○ denQCi、simQCi、QC-STAMP(参考)
○ 基序分析:包含 TF 基序的峰的百分比是多少?该基序是否倾向于出现在峰的中间?预计不会出现所有峰,因为 TF 可能作为蛋白质复合物或异二聚体的一部分结合。
③ ATAC-seq 的 QC 指标
○ FastQC:例如,“每个碱基序列内容”可用于评估Tn5转座酶的整合偏倚。
○ ataqv 包提供了 35 个 QC 指标,如下(ref):片段长度分布,% 是高质量和常染色体的读数,% 读取正确配对的末端映射,与重复的常染色体比对的读取百分比、短单核小体比率、TSS 富集、峰中的重复分数、峰外的重复分数、峰重复比率、峰中高质量常染色体读数的累积分数、峰内基因组的累积分数、作图质量的分布、总读段数、标记为辅助的比对百分比、标记为补充的比对百分比、标记为重复的比对百分比、平均作图质量、中位作图质量,未映射的读段百分比,具有未映射配偶的读段百分比,QC 失败读段百分比,未配对读段百分比,比对质量为 0 的读段百分比,配对和作图但处于 RF 方向的读段百分比,配对和作图但处于 FF 方向的读段百分比,配对和作图但处于 RR 方向的读段百分比,配对和作图但在不同染色体上的读段百分比,配对和作图但离配偶太远的读段百分比,%配对和映射但不正确的读数、与常染色体对齐的读数百分比、与线粒体对齐的读数百分比、与重复的线粒体对齐的读数百分比、调用的峰数、片段长度分布距离、来自单个常染色体的读数的最大分数
④ 方法1. 其他数据集:10x Genomics、GEO、ZENODO 等。
⑤ 方法2. FastQC:以Fastq 文件作为输入。基于Java。
○ 2-1. FastQC 和 multiQC:最受欢迎
○ 读取的碱基对质量
○ 读取中的接头序列
○ PCR 重复
○ 代表性过高的序列
○ 每个样品的 GC 分布
○ 2-2. QoRT([参考1](https://pubmed.ncbi.nlm.nih.gov/26187896/),[参考2](https://github.com/hartleys/QoRTs)):非常好
○ RNA 降解:读数分布 5’ → 3’
○ 绞合度检查
○ GC 偏差
○ 2-3. RNASeQC:不错
○ 2-4. RSeQC:曾经有重大错误
○ 2-5. 使用 conda Fastqc 命令 (Linux)
○ 2-6. 下载 SRA (Sequence Reads Archive) 工具包并使用 fastqc 命令 (Linux)
○ 下面是生成文件的示例。
受保护_0
⑥ 方法 3. Trimmomatic:以 Fastq 文件作为输入。
⑦ 方法4. Cutadapt
⑧ 方法5. FASTX-Toolkit:以Fastq 文件作为输入。
⑨ 方法6. 映射后QC:以SAM 或BAM 文件作为输入。
○ QC 指标
○ % 独特映射的读数
○ % 读取映射到外显子
○ 复杂性,即 x% 的读取计数被 y% 的基因占用
○ ○ 样品间的一致性»> ○ 样本交换:将 Y 染色体、Xist、基因型(例如 SNP)与元数据进行匹配。
○ 6-1. Qplot
○ 6-2. Samtools
⑩ 方法 7.
SnakeMake:还提供 QC 功能的集成管道
○
Snakefile: 基于 Python 的 Snakemake 脚本。文件名本身是 Snakefile。
受保护_1
○
config.yaml(可选):Snakemake 工作流程设置(参考)
○
requirements.txt(可选):包依赖项
○ 输入文件
○ 输出文件
⑪ 方法 8. QuASAR-QC:适用于 Hi-C 数据
⑫ 疑难解答
⑵ 类型1. 样本之间的等级相关性:用于内部有效性确认
① 目标 1. 通过检查单个样本中具有对齐特征的两个变量的对齐来评估样本质量
○ 示例 1. 检查两个已知相似基因的表达水平的比对
○ 示例 2. 研究已知相似的两个基因的表达是否出现在同一簇中
② 目标2. 主要用于观察一对相同样本之间的对应关系
③ 目标3. 检查具有不同数据分布特征的两个不同变量的相关系数
○ 与QC分析有些距离
○ 示例:研究 scRNA-seq 中基因 A 表达与 ST 中基因 A 表达之间的相关系数
④ 方法1. 皮尔逊相关系数
○ 定义:给定 X 和 Y 的标准差 σx、σy,
○
cor(x, y)
○
cor(x, y, method = "pearson")
○
cor.test(x, y)
○
cor.test(x, y, method = "pearson")
⑤ 方法2. Spearman等级相关系数
○ 定义:根据ranks x’=rank(x) and y’=rank(y)定义
○
cor(x, y, method = "spearman")
○
cor.test(x, y, method = "spearman")
⑥ 方法3. Kendall 等级相关系数
○ 定义:根据一致对和不一致对定义
○ 步骤 1. 对 x 值按升序对 y 值进行排序:将每个 y 值表示为 yi
○ 步骤 2. 计算每个 yi 值的 yj > yi(其中 j > i)的一致对的数量
○ 步骤 3. 计算每个 yi 值的 yj < yi(其中 j > i)不一致对的数量
○ 步骤4. 相关系数的定义
○ nc: 一致对总数
○ nd: 不一致对的总数
○ n: x 和 y 的大小
○
cor(x, y, method = "kendall")
○
cor.test(x, y, method = "kendall")
⑦ 方法 4. 经验 CDF(累积分布函数)之间的 Q-Q 图
⑧ 方法 5. 有序 p 值之间的 Q-Q 图
⑨ 对于 Hi-C 测序,可用的方法包括 HiCRep、GenomeDISCO、HiC-Spector 和 QuASAR-Rep。
3。故障排除⑴ 方法 1. 网站调查:飞行前错误、飞行中错误或警报
① 安装bcl2fastq失败
② 每个单元的 ATAC 测序深度较低 (Cell Ranger ARC v2.0):理想> 10,000。低 ATAC 测序深度会对峰识别、聚类、差异分析和特征关联的质量产生负面影响。在非常低的测序深度(每个细胞 < 5000 个原始读取对)下,细胞条形码的识别可能不可靠。
③ 每个细胞的 GEX 测序深度较低(Cell Ranger ARC v2.0):理想> 5,000。低 GEX 测序深度会对聚类、差异分析和特征关联的质量产生负面影响。在非常低的测序深度(每个细胞 < 2,000 个原始读取对)下,细胞条形码的识别可能不可靠。
④ 每个细胞的 ATAC 片段中值较低 (Cell Ranger ARC v2.0):值较低通常是由于序列深度较低、基因组参考错误或文库复杂性较低(可能是由于转座步骤中的问题或文库制备工作流程中的问题)造成的。片段计数低会对聚类、差异分析和特征连锁检测产生负面影响。
⑤ 检测到的连锁数量较低(Cell Ranger ARC v2.0):检测到的特征连锁数量< 100。这可能是由于回收的细胞核数量较少、测序深度较低、峰识别较差或样本相对同质造成的。
⑥ 每个细胞的 GEX 中值 UMI 计数较低 ( Cell Ranger ARC v2.0 ):观察值 < 100。这可能是由于测序深度极低、样品质量差、文库制备工作流程中的错误、参考基因组错误或基因组注释不良造成的。低 UMI 计数会对聚类、差异分析和特征链接检测产生负面影响。
⑦ GEX 读取映射到参考较低 (Cell Ranger ARC v2.0):理想 > 80%。这可能是由于使用了错误的参考基因组或质量差的基因组组装造成的。应用程序性能可能会受到影响。
⑧ GEX 读取到转录组的映射较低 (Cell Ranger ARC v2.0):理想 > 50%。这可能表明使用了错误的参考转录组、具有重叠基因的参考转录组、文库质量差、测序质量差或读数短于建议的最小值。应用程序性能可能会受到影响。
⑨ ATAC 读取到参考的映射较低 (Cell Ranger ARC v2.0):理想 > 80%。这可能是由于使用了错误的参考基因组或质量差的基因组组装造成的。应用程序性能可能会受到影响。
⑩ 细胞中的 GEX 转录组读取量较低 (Cell Ranger ARC v2.0):理想> 60%。许多读数并未分配给细胞相关的条形码。这通常表明样品制备不当导致环境 RNA 水平较高。它还可能表明细胞调用算法中存在问题,该问题可能是由高 RNA 或 DNA 背景、由于低靶向性而从细胞调用中排除大量条形码或由于 RNA 含量低的细胞核群体引起的。后一种情况可以通过检查数据以确定适当的单元计数并重新运行管道提供适当的参数来覆盖单元调用者来解决。应用程序性能可能会受到影响。
⑪ 低分数读数自信地映射到转录组 **(Cell Ranger v6.1):理想 > 30%。这可能表明使用了错误的参考转录组、具有重叠基因的参考转录组、文库质量差、测序质量差或读数短于建议的最小值。应用程序性能可能会受到影响。> ⑫ **未检测到细胞 ( Cell Ranger v6.1 ):估计细胞数量预计 > 100。这通常表明细胞处理不良、文库不良或测序质量不良。应用程序性能可能会受到影响。
⑬ 低分数有效 UMI (Cell Ranger v6.1):理想 > 75%。这可能表明 Single Cell 3’ v1 的 Illumina R2 读数或 Single Cell 3’ v2/v3 和 Single Cell 5’ 的 R1 读数存在质量问题。应用程序性能可能会受到影响。
⑭ Q 分数 >= 30 的 UMI 碱基分数较低 ( Cell Ranger v6.1 ):Q 分数 >= 30 的 UMI 碱基分数(针对 Single Cell 3’ v1 的 Illumina R2 Read,针对 Single Cell 3’ v2/v3 和 Single Cell 5’ 的 R1)应高于 75%。较低的分数可能表明测序质量较差。
⑮ Q 分数 >= 30 的细胞条形码碱基分数较低 ( Cell Ranger v6.1 ):Q 分数 >= 30 的细胞条形码碱基分数(针对 Single Cell 3’ v1 的 Illumina I7 Read,针对 Single Cell 3’ v2/v3 和 Single Cell 5’ 的 R1)应高于 55%。较低的分数可能表明测序质量较差。
ⓐ 检测到的细胞过多 (Cell Ranger ATAC v2.0):估计细胞数量预计低于 10,000。高值可能表示单元格重叠、文库制备过程中出现问题或单元格调用算法中的意外行为。
ⓑ 高测序质量的条码碱基平均比例较低(Cell Ranger ATAC v2.0):条码中质量高于 Q30 的碱基平均比例理想情况下应高于 75%。较低的分数可能表明测序质量较差。
ⓒ 每个细胞的中位片段数较低 ( Cell Ranger ATAC v2.0 ):在单个细胞中检测到的片段(通过所有过滤器)的中位数预计将高于 500。较低的值表明灵敏度较低,可能是由于测序不足所致。
ⓓ ** 落在峰值范围内的换位事件的百分比较低** ( Cell Ranger ATAC v2.0 ):预计超过 25% 的换位事件落在峰值区域内。较低的值可能表明峰值不足或测序深度较低。
ⓔ 估计细胞数量较低 (Cell Ranger ATAC v2.0):检测到的细胞数量预计高于 500。这通常表明细胞、文库或测序质量较差。
ⓕ 测序质量高的条码碱基平均比例较低(Cell Ranger ATAC v2.0):条码中Q30以上质量的碱基平均比例应在75%以上。较低的分数可能表明测序质量较差。
ⓖ Q-score >= 30 的 RNA 读碱基比例较低 (Space Ranger v1.3):Q-score >= 30 的 RNA 读碱基比例应高于 80%。较低的分数可能表明测序质量较差。
ⓗ 低分数点读取 (Space Ranger v1.3):理想> 50%。应用程序性能可能会受到影响。许多读数并未分配给组织覆盖的点。这可能是由于透化效率低下或组织检测不良导致环境 RNA 水平过高所致。后一种情况可以通过放大镜使用手动组织选择选项来解决。
⑵ 方法2. 搜索技术说明
输入:2023.05.22 11:48