了解数据格式
推荐帖子:【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)
1. FASTQ 文件
2. FASTA 文件
3. GFF 文件
4. GTF 文件
5. BAM 文件
6. SAM 文件
7. 床文件
8. Loom 文件
9. VCF 文件
10. 其他文件类型
1. FASTQ(快速-Q)
受保护_0
⑴ 存储样本的序列信息。
⑵ 第1行:SEQ_ID,即@+序列标识符+可选描述。
① 示例1: @HWUSI-EAS100R:6:73:941:1973#0/1
| HWUSI-EAS100R | 独特的仪器名称 |
|---|---|
| 6 | 流通池泳道 |
| 73 | 73流通池通道内的瓷砖数量 |
| 941 | 941 ‘x’-图块内簇的坐标 |
| 1973 | ‘y’-图块内簇的坐标 |
| #0 | 多重样本的索引号(0 表示无索引) |
| /1 | 一对成员,/1 或 /2(配对端或配对只读) |
表 1. SEQ_ID 示例([ref](https://en.wikipedia.org/wiki/FASTQ_format#:~:text=FASTQ%20format%20is%20a%20text,single%20ASCII%20character%20for%20brevity。))
② 示例2: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
| EAS139 | 独特的仪器名称 |
|---|---|
| 136 | 136运行 ID |
| FC706VJ | 流通池 ID |
| 2 | 流通池泳道 |
| 2104 | 2104流通池通道内的瓷砖数量 |
| 15343 | ‘x’-图块内簇的坐标 |
| 197393 | ‘y’-图块内簇的坐标 |
| 1 | 一对的成员,1 或 2(配对端或配对只读) |
| 是 | 如果读取被过滤(未通过)则为 Y,否则为 N |
| 18 | 18当没有控制位打开时为 0,否则为偶数 |
| ATCACG | 索引序列 |
表 2. SEQ_ID 示例([ref](https://en.wikipedia.org/wiki/FASTQ_format#:~:text=FASTQ%20format%20is%20a%20text,single%20ASCII%20character%20for%20brevity。))
⑶ 第2行:原始序列
⑷ 第 3 行:“+”+(可选)序列标识符
⑸ 第 4 行:第 2 行中序列的质量得分。
① Phred 质量得分 = Q = Qsanger = -10 log10 P(其中 P 是碱基检出错误概率)。
○ 示例 1. 1000 中有 1 个错误 = Qsanger 30
○ 示例 2. 10000 中有 1 个错误 = Qsanger 40
② 以 ASCII 字符表示,字符数与原始序列的长度匹配。
③ 类型1: PHRED 33 编码
表 3. PHRED 33 编码
○ 目前使用最广泛的格式。
○ Phred 分数加 33 后以 ASCII 代码表示。即,将 0-93 映射到 ASCII 33-126。
④ 类型2: PHRED 64 编码
表 4. PHRED 64 编码
2. FASTA(快-A)
⑴ 概述
① 存储参考的序列信息
② 标题行以“>”符号开始。
③ 适用于DNA、RNA、蛋白质。
⑵ 示例:GFP 的 FASTA 文件。
受保护_1
3. GFF(通用特征格式)
⑴ 概述
① 存储参考文献中的注释信息。与 GTF 的格式略有不同。
② 1启动、全闭
○ 但是,对于 UCSC Genome Browser 等 Web 浏览器,它们使用 0 启动、半开放系统。
| rs782519173 (hg38) | 开始 | 结束 |
|---|---|---|
| 位于网络浏览器中(1-启动,完全关闭) | 133255708 | 133255708 |
| 存储在表中(0-开始,半开) | 133255707 | 133255708 |
表 5. 从零开始与从一开始
③ GFF 前八个字段分别是 seqname(#seqid)、source、feature(type)、start、end、score、strand、frame(phase)、attributes:与 GTF 相同。
○ seqname:染色体或支架的名称。
○ 来源:生成此功能的程序的名称或数据源。
○ feature - 特征类型名称,例如基因、变异、相似性。
○ start:特征的起始位置,序列编号从1开始。
○ end:特征的结束位置(含),序列编号从1开始。非编码RNA的编码起始列和编码结束列相同。始终等于或大于
start。
○ 分数:浮点值。
○ 股:定义为+(正向)或-(反向)。 “+”链上基因的转录起始位点由
start定义,但“-”链上基因的转录起始位点由end定义。
○ 帧 - “0”、“1”或“2”之一。 “0”表示该特征的第一个碱基是密码子的第一个碱基,“1”表示第二个碱基是密码子的第一个碱基,等等。
○ 属性:以分号分隔的标记值对列表,提供有关每个功能的附加信息。
④ 与GTF不同的是,没有额外的字段:例如GFF中不保留gene_id和transcript_id之间的层次关系。
受保护_2
受保护_3
4. GTF(基因转移格式)
⑴ 概述
① 保存参考文献的注释信息
② 前8个字段与GFF相同
③ GTF除了GFF外,特征列中还包括5UTR、3UTR、inter、inter_CNS、intron_CNS
④ 组字段是一个属性列表:每个属性以分号结尾,并且正好用一个空格分隔
⑵ 示例:MUC1 基因和一个转录本的 GTF 文件的内容。
受保护_4
① NM_000001.11:参考入藏号。 “NM_000001”指的是1号染色体,“.11”是第11个版本。
② BestRefSeq、RefSeq、Gnomon、HAVANA 等:引用类型。
③ GTF行包括gene、transcript、exon、CDS、domain、group、start_codon、stop_codon等。
④ 第一行数字155185825和155192915表示MUC1基因跨越FASTA序列中第155185825个碱基到第155192915个碱基。
⑤ +、-:(+) 表示该基因位于正向(= 正、有义)链上,(-) 表示该基因位于反向(= 负、反义)链上。
⑥ 0、1、2:在CDS中,0、1、2分别对应解码帧的第1、2、3个碱基。
⑦ 一个基因可以有多个转录本:基因和转录本通过gene_id、gene等联系起来。> ⑧ 每个转录本可以有多个外显子特征:转录本和外显子通过transcript_id链接。
⑨ CDS(蛋白质编码序列)通常是外显子的子集:一些外显子与 CDS 相同。
⑩ 某些基因可能缺少起始密码子或终止密码子(例如 LOC102724389)。
5。 SAM(序列比对/MAP 格式)
⑴ 存储将 FASTQ 文件映射到参考文件(例如 GTF)的结果的文件。
⑵ 解释:由实线组成如下。
受保护_5
① QNAME(查询模板NAME):读取的查询名称。在双端测序的情况下,每对的 QNAME 是相同的。
② FLAG:按位标志(配对、链等)
③ RNAME(参考序列NAME):参考序列名称
④ POS (1-based leftmost mapping Position):从1开始的对齐最左位置
⑤ MAPQ(映射质量):Phred 尺度
⑥ CIGAR(简明特殊间隙对齐报告)字符串(操作:MIDNSHP)
受保护_6
⑦ RNEXT
⑧ PNEXT
⑨ TLEN(观察到的模板长度)
⑩ SEQ(段SEQuence)
⑪ QUAL(质量)
⑫ NH:i:报告的包含读数的比对数。
⑬ HI:i:命中指数。
⑭ AS:i:对齐分数。
⑮ nM:i:不匹配的数量。
⑯ ts:i:附加标签,可能特定于对准器或分析管道。
⑰ RG:Z:读取组标识符。
⑱ TX:Z、GX:Z、GN:Z、fx:Z:与读取的基因或转录本相关的标签与您的查询对齐。
⑲ xf:i:特定软件使用的附加标志。
⑳ CR:Z、CY:Z、UR:Z、UY:Z、UB:Z:与细胞条形码和唯一分子标识符 (UMI) 相关的字段,这些字段在单细胞测序技术中非常重要。
㉑ MRNM:配合名称(配合名称:* 如果不适用;= 如果相同)
㉒ MPOS:从 1 开始的配合最左边位置
㉓ ISIZE:推断的插入大小(上游读取的最左边到下游读取的最右边)
㉔ SEQQuery:参考上的序列(同一链)
㉕ QUAL:查询质量(Phred-scaled)
6。 BAM(二进制对齐图)
⑴ BAM 是 SAM 的二进制版本(人类不可读)。使用较少的空间,因此通常是首选。
⑵ 经常需要对SAM或BAM文件进行排序。
⑶ 碱基修改信息可以使用两个新标签(MM和ML)存储在比对文件中
① ML标签:B、C;碱基修饰概率
② MM标签:Z;碱基修饰/甲基化
③ 甲基化SAM标签
表 6. SAM 标签
④ MM标签示例:C+m,5,12,0
○ 前 5 个 C 碱基未修饰。
○ 第 6 个 C 已修改,接下来的 12 个 C 未修改。
○ 第 19 个 C 被修改,然后接下来的 0 个 C 未修改。
○ 修改了20号C。
7.BED 文件
图 1. BED 格式
⑴ 表示比对结果的最小格式
⑵ 对于表示感兴趣的特征非常有用,例如增强子、SNP、ChIP-seq 峰、外显子等。
⑶ 制表符分隔。
⑷ 3个必填字段:chrom、chromStart、chromEnd
① chrom:染色体名称
② chromStart:0-偏移(从“0”开始)。功能开始
③ chromEnd:1 偏移量。功能结束
⑸ 9 个附加字段:name、score、strand、thickStart、thickEnd、itemRgb、blockCount、blockSizes、blockStarts
①评分:0-1000之间的评分
② 链:映射质量(Phred-scaled)
8. Loom 文件
⑴ 基因表达数据:.h5文件的内容⑵(可选)剪接和未剪接RNA转录本层:如果使用RNA速度感知工具
⑶(可选)单元元数据层
⑷(可选)基因元数据层
9.VCF 文件
⑴ 样本→原始序列(FASTA/FASTQ)→对齐读取(BAM/SAM)→变体调用(VCF)
⑵ 文件结构
表 6. VCF 文件的结构
① #CHROM:染色体标识符。示例包括 7、chr7、X 或 chrX。
② POS:参考位置。在每条染色体内按升序排序。
③ ID:唯一标识符,以分号分隔。不允许有空格。
④ REF:参考碱基(A、C、G、T)。插入可以用点(.) 表示。
⑤ ALT:以分号分隔的替代碱基(A、C、G、T)。删除由点 (.) 表示。
⑥ QUAL:以对数刻度表示的质量分数。分数 100 表示错误概率为十分之一10。
⑦ FILTER:表示失败的过滤器,以分号分隔。可标记为 PASS 或 MISSING。
⑧ INFO:位置级别信息(不包括样本),以分号分隔的名称-值格式。
○ NS(样本数):检测到变异的样本数。
○ DP(深度):读取该位置的深度。 DP=14表示在该位置总共读取了14个序列。
○ AF(等位基因频率):等位基因的频率。
○ AA(祖先等位基因):祖先等位基因。
○ DB (dbSNP):表示该变体已在 dbSNP 中注册。
○ H2 (HapMap2):表示该变体已包含在 HapMap2 项目数据库中。
⑨ FORMAT:样本级字段名称的声明,以分号分隔。
○ GT(基因型):表示用斜线(/,不定相)或竖线(|,定相)分隔的等位基因。
○ GQ:基因型质量以单个整数表示。
○ DP:读取深度,以单个整数表示。
○ HQ:单倍体质量,由两个整数组成,以逗号分隔。
⑩
:与FORMAT字段声明对应的样本级字段数据,以分号分隔。
⑶ 解释
① 所有变异均发生在 NCBI36 (hg18) 的 20 号染色体上。
② 鉴定出 5 个 SNP 位点(14370、17330、1110696、1230237、1234567)。
③ 三个变体都有ID,其中包括两条dbSNP记录(rs6054257、rs6040355)。
④ 前两个位置(14370、17330)是简单的单核苷酸多态性。
⑤ 第三个位置包含两个替代等位基因(G 和 T),替换参考碱基(A)。
⑥ 第四个位置代表 T 的缺失,没有替代等位基因(“.”)。
⑦第五个条目包含两个替代等位基因:第一个是TC的删除,第二个是T的插入。
⑷ 压缩:利用HTSlib。
① 方法1.
bgzip MyFile.vcf(gzip的修改版本,用于压缩VCF文件)
② 方法2.
tabix -p vcf MyFile.vcf.gz(索引使用bgzip压缩的文件)
③ 方法3.
tabix -h MyFile.vcf.gz chr1:5363-5463(用坐标范围对文件进行子集化)
10.其他文件类型
⑴ HDF(分层数据格式)
⑵ 临时存储器
⑶ 扁平
⑷ AGP
⑸ GB/GBK
⑹ BEDgraph:与[变体调用]相关(https://jb243.github.io/pages/2050#4-qc-4-alignment)。
图 2. BEDgraph 格式
⑺ Wiggle:与[变体调用]相关(https://jb243.github.io/pages/2050#4-qc-4-alignment)。以二进制形式存储 Wiggle 文件的格式称为 bigWig 格式。
图 3. Wiggle 格式
⑻ GFA(Graphical Fragment Assembly Format):表示装配图的文件。不经常使用。
① H(标头):无固定值
② S(线段):表示一个顶点及其补集。固定值为 segName、segSeq。
③ L(重叠):表示一条边及其补集。固定值为 segName1、segOri1、segName2、segOri2、CIGAR。
⑼ FASTG:GFA 之前表示装配图的文件格式。
① 术语有些不同:实际的顶点表示为边,边表示为邻接。
② 可以使用嵌套表示子图:缺乏处理此问题的算法被指出是 FASTG 的主要限制。
⑽ PAF
⑾ 标签对齐
⑿ SJ.out.tab
| chr1 | 1564692 | 1565018 | 1 | 1 | 1 | 2 | 0 | 6 | |
|---|---|---|---|---|---|---|---|---|---|
| chr1 | 1564947 | 1564947 1565018 | 1 | 1 | 1 | 2 | 0 | 24 | |
| chr1 | 1565085 | 1565085 1565671 | 1 | 1 | 1 | 15 | 15 0 | 22 | 22 |
| chr1 | 1571844 | 1572043 | 1572043 2 | 2 | 1 | 17 | 17 0 | 21 | 21 |
| chr1 | 1572161 | 1572258 | 1572258 2 | 2 | 1 | 5 | 0 | 5 | |
| chr1 | 1572367 | 1572442 | 2 | 2 | 1 | 13 | 0 | 20 |
表 7. SJ.out.tab 파일 예시
① 第 1 列:染色体
② 第 2 列:内含子的第一个碱基(1-based)
③ 第 3 列:内含子的最后一个碱基(1 基)
④ 第 4 列:链(0:未定义,1:+,2:-)。第 4 列和第 5 列高度相关。
⑤ 第 5 列:内含子基序。 0:非规范; 1:GT/AG、2:CT/AC、3:GC/AG、4:CT/GC、5:AT/AC、6:GT/AT
⑥ 第 6 列:0:未注释,1:已注释(仅当使用熔接点数据库时)
⑦ 第 7 列:穿过连接点的唯一映射读取数
⑧ 第 8 列:穿过交叉点的多重映射读取数
⑨ 第 9 列:最大拼接对齐悬伸。每个拼接读数的突出部分计算为供体和受体片段长度的最小值。然后,对于在相同连接处拼接的所有读取,报告最大悬垂……以了解最可靠的拼接读取。
⒀ fam:PLINK 格式
图4. fam 文件
⒁ bim:PLINK格式
图5. bin文件
输入:2023.08.03 17:05