了解数据格式

推荐帖子：【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)

1. FASTQ 文件

2. FASTA 文件

3. GFF 文件

4. GTF 文件

5. BAM 文件

6. SAM 文件

7. 床文件

8. Loom 文件

9. VCF 文件

10. 其他文件类型

1. FASTQ（快速-Q）

受保护_0

⑴ 存储样本的序列信息。

⑵ 第1行：SEQ_ID，即@+序列标识符+可选描述。

① 示例1： @HWUSI-EAS100R:6:73:941:1973#0/1

HWUSI-EAS100R	独特的仪器名称
6	流通池泳道
73	73流通池通道内的瓷砖数量
941	941 ‘x’-图块内簇的坐标
1973	‘y’-图块内簇的坐标
#0	多重样本的索引号（0 表示无索引）
/1	一对成员，/1 或 /2（配对端或配对只读）

表 1. SEQ_ID 示例（[ref](https://en.wikipedia.org/wiki/FASTQ_format#:~:text=FASTQ%20format%20is%20a%20text,single%20ASCII%20character%20for%20brevity。））

② 示例2： @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

EAS139	独特的仪器名称
136	136运行 ID
FC706VJ	流通池 ID
2	流通池泳道
2104	2104流通池通道内的瓷砖数量
15343	‘x’-图块内簇的坐标
197393	‘y’-图块内簇的坐标
1	一对的成员，1 或 2（配对端或配对只读）
是	如果读取被过滤（未通过）则为 Y，否则为 N
18	18当没有控制位打开时为 0，否则为偶数
ATCACG	索引序列

表 2. SEQ_ID 示例（[ref](https://en.wikipedia.org/wiki/FASTQ_format#:~:text=FASTQ%20format%20is%20a%20text,single%20ASCII%20character%20for%20brevity。））

⑶ 第2行：原始序列

⑷ 第 3 行：“+”+（可选）序列标识符

⑸ 第 4 行：第 2 行中序列的质量得分。

① Phred 质量得分 = Q = Q_sanger = -10 log₁₀ P（其中 P 是碱基检出错误概率）。

○ 示例 1. 1000 中有 1 个错误 = Q_sanger 30

○ 示例 2. 10000 中有 1 个错误 = Q_sanger 40

② 以 ASCII 字符表示，字符数与原始序列的长度匹配。

③ 类型1： PHRED 33 编码

表 3. PHRED 33 编码

○ 目前使用最广泛的格式。

○ Phred 分数加 33 后以 ASCII 代码表示。即，将 0-93 映射到 ASCII 33-126。

④ 类型2： PHRED 64 编码

表 4. PHRED 64 编码

2. FASTA（快-A）

⑴ 概述

① 存储参考的序列信息

② 标题行以“>”符号开始。

③ 适用于DNA、RNA、蛋白质。

⑵ 示例：GFP 的 FASTA 文件。

受保护_1

3. GFF（通用特征格式）

⑴ 概述

① 存储参考文献中的注释信息。与 GTF 的格式略有不同。

② 1启动、全闭

○ 但是，对于 UCSC Genome Browser 等 Web 浏览器，它们使用 0 启动、半开放系统。

rs782519173 (hg38)	开始	结束
位于网络浏览器中（1-启动，完全关闭）	133255708	133255708
存储在表中（0-开始，半开）	133255707	133255708

表 5. 从零开始与从一开始

③ GFF 前八个字段分别是 seqname(#seqid)、source、feature(type)、start、end、score、strand、frame(phase)、attributes：与 GTF 相同。

○ seqname：染色体或支架的名称。

○ 来源：生成此功能的程序的名称或数据源。

○ feature - 特征类型名称，例如基因、变异、相似性。

○ start：特征的起始位置，序列编号从1开始。

○ end：特征的结束位置（含），序列编号从1开始。非编码RNA的编码起始列和编码结束列相同。始终等于或大于 start。

○ 分数：浮点值。

○ 股：定义为+（正向）或-（反向）。 “+”链上基因的转录起始位点由 start 定义，但“-”链上基因的转录起始位点由 end 定义。

○ 帧 - “0”、“1”或“2”之一。 “0”表示该特征的第一个碱基是密码子的第一个碱基，“1”表示第二个碱基是密码子的第一个碱基，等等。

○ 属性：以分号分隔的标记值对列表，提供有关每个功能的附加信息。

④ 与GTF不同的是，没有额外的字段：例如GFF中不保留gene_id和transcript_id之间的层次关系。

⑵ GTF 到 GFF 转换

受保护_2

⑶ GFF 到 GTF 转换

受保护_3

4. GTF（基因转移格式）

⑴ 概述

① 保存参考文献的注释信息

② 前8个字段与GFF相同

③ GTF除了GFF外，特征列中还包括5UTR、3UTR、inter、inter_CNS、intron_CNS

④ 组字段是一个属性列表：每个属性以分号结尾，并且正好用一个空格分隔

⑵ 示例：MUC1 基因和一个转录本的 GTF 文件的内容。

受保护_4

① NM_000001.11：参考入藏号。 “NM_000001”指的是1号染色体，“.11”是第11个版本。

② BestRefSeq、RefSeq、Gnomon、HAVANA 等：引用类型。

③ GTF行包括gene、transcript、exon、CDS、domain、group、start_codon、stop_codon等。

④ 第一行数字155185825和155192915表示MUC1基因跨越FASTA序列中第155185825个碱基到第155192915个碱基。

⑤ +、-：(+) 表示该基因位于正向（= 正、有义）链上，(-) 表示该基因位于反向（= 负、反义）链上。

⑥ 0、1、2：在CDS中，0、1、2分别对应解码帧的第1、2、3个碱基。

⑦ 一个基因可以有多个转录本：基因和转录本通过gene_id、gene等联系起来。> ⑧ 每个转录本可以有多个外显子特征：转录本和外显子通过transcript_id链接。

⑨ CDS（蛋白质编码序列）通常是外显子的子集：一些外显子与 CDS 相同。

⑩ 某些基因可能缺少起始密码子或终止密码子（例如 LOC102724389）。

5。 SAM（序列比对/MAP 格式）

⑴ 存储将 FASTQ 文件映射到参考文件（例如 GTF）的结果的文件。

⑵ 解释：由实线组成如下。

受保护_5

① QNAME（查询模板NAME）：读取的查询名称。在双端测序的情况下，每对的 QNAME 是相同的。

② FLAG：按位标志（配对、链等）

③ RNAME（参考序列NAME）：参考序列名称

④ POS (1-based leftmost mapping Position)：从1开始的对齐最左位置

⑤ MAPQ（映射质量）：Phred 尺度

⑥ CIGAR（简明特殊间隙对齐报告）字符串（操作：MIDNSHP）

受保护_6

⑦ RNEXT

⑧ PNEXT

⑨ TLEN（观察到的模板长度）

⑩ SEQ（段SEQuence）

⑪ QUAL（质量）

⑫ NH:i：报告的包含读数的比对数。

⑬ HI:i：命中指数。

⑭ AS:i：对齐分数。

⑮ nM:i：不匹配的数量。

⑯ ts:i：附加标签，可能特定于对准器或分析管道。

⑰ RG:Z：读取组标识符。

⑱ TX:Z、GX:Z、GN:Z、fx:Z：与读取的基因或转录本相关的标签与您的查询对齐。

⑲ xf:i：特定软件使用的附加标志。

⑳ CR:Z、CY:Z、UR:Z、UY:Z、UB:Z：与细胞条形码和唯一分子标识符 (UMI) 相关的字段，这些字段在单细胞测序技术中非常重要。

㉑ MRNM：配合名称（配合名称：* 如果不适用；= 如果相同）

㉒ MPOS：从 1 开始的配合最左边位置

㉓ ISIZE：推断的插入大小（上游读取的最左边到下游读取的最右边）

㉔ SEQQuery：参考上的序列（同一链）

㉕ QUAL：查询质量（Phred-scaled）

6。 BAM（二进制对齐图）

⑴ BAM 是 SAM 的二进制版本（人类不可读）。使用较少的空间，因此通常是首选。

⑵ 经常需要对SAM或BAM文件进行排序。

⑶ 碱基修改信息可以使用两个新标签（MM和ML）存储在比对文件中

① ML标签：B、C；碱基修饰概率

② MM标签：Z；碱基修饰/甲基化

③ 甲基化SAM标签

表 6. SAM 标签

④ MM标签示例：C+m,5,12,0

○ 前 5 个 C 碱基未修饰。

○ 第 6 个 C 已修改，接下来的 12 个 C 未修改。

○ 第 19 个 C 被修改，然后接下来的 0 个 C 未修改。

○ 修改了20号C。

7.BED 文件

图 1. BED 格式

⑴ 表示比对结果的最小格式

⑵ 对于表示感兴趣的特征非常有用，例如增强子、SNP、ChIP-seq 峰、外显子等。

⑶ 制表符分隔。

⑷ 3个必填字段：chrom、chromStart、chromEnd

① chrom：染色体名称

② chromStart：0-偏移（从“0”开始）。功能开始

③ chromEnd：1 偏移量。功能结束

⑸ 9 个附加字段：name、score、strand、thickStart、thickEnd、itemRgb、blockCount、blockSizes、blockStarts

①评分：0-1000之间的评分

② 链：映射质量（Phred-scaled）

8. Loom 文件

⑴ 基因表达数据：.h5文件的内容⑵（可选）剪接和未剪接RNA转录本层：如果使用RNA速度感知工具

⑶（可选）单元元数据层

⑷（可选）基因元数据层

9.VCF 文件

⑴ 样本→原始序列（FASTA/FASTQ）→对齐读取（BAM/SAM）→变体调用（VCF）

⑵ 文件结构

表 6. VCF 文件的结构

① #CHROM：染色体标识符。示例包括 7、chr7、X 或 chrX。

② POS：参考位置。在每条染色体内按升序排序。

③ ID：唯一标识符，以分号分隔。不允许有空格。

④ REF：参考碱基（A、C、G、T）。插入可以用点(.) 表示。

⑤ ALT：以分号分隔的替代碱基（A、C、G、T）。删除由点 (.) 表示。

⑥ QUAL：以对数刻度表示的质量分数。分数 100 表示错误概率为十分之一¹⁰。

⑦ FILTER：表示失败的过滤器，以分号分隔。可标记为 PASS 或 MISSING。

⑧ INFO：位置级别信息（不包括样本），以分号分隔的名称-值格式。

○ NS（样本数）：检测到变异的样本数。

○ DP（深度）：读取该位置的深度。 DP=14表示在该位置总共读取了14个序列。

○ AF（等位基因频率）：等位基因的频率。

○ AA（祖先等位基因）：祖先等位基因。

○ DB (dbSNP)：表示该变体已在 dbSNP 中注册。

○ H2 (HapMap2)：表示该变体已包含在 HapMap2 项目数据库中。

⑨ FORMAT：样本级字段名称的声明，以分号分隔。

○ GT（基因型）：表示用斜线（/，不定相）或竖线（|，定相）分隔的等位基因。

○ GQ：基因型质量以单个整数表示。

○ DP：读取深度，以单个整数表示。

○ HQ：单倍体质量，由两个整数组成，以逗号分隔。

⑩ ：与FORMAT字段声明对应的样本级字段数据，以分号分隔。

⑶ 解释

① 所有变异均发生在 NCBI36 (hg18) 的 20 号染色体上。

② 鉴定出 5 个 SNP 位点（14370、17330、1110696、1230237、1234567）。

③ 三个变体都有ID，其中包括两条dbSNP记录（rs6054257、rs6040355）。

④ 前两个位置（14370、17330）是简单的单核苷酸多态性。

⑤ 第三个位置包含两个替代等位基因（G 和 T），替换参考碱基（A）。

⑥ 第四个位置代表 T 的缺失，没有替代等位基因（“.”）。

⑦第五个条目包含两个替代等位基因：第一个是TC的删除，第二个是T的插入。

⑷ 压缩：利用HTSlib。

① 方法1. bgzip MyFile.vcf (gzip的修改版本，用于压缩VCF文件)

② 方法2. tabix -p vcf MyFile.vcf.gz（索引使用bgzip压缩的文件）

③ 方法3. tabix -h MyFile.vcf.gz chr1:5363-5463（用坐标范围对文件进行子集化）

10.其他文件类型

⑴ HDF（分层数据格式）

⑵ 临时存储器

⑶ 扁平

⑷ AGP

⑸ GB/GBK

⑹ BEDgraph：与[变体调用]相关(https://jb243.github.io/pages/2050#4-qc-4-alignment)。

图 2. BEDgraph 格式

⑺ Wiggle：与[变体调用]相关(https://jb243.github.io/pages/2050#4-qc-4-alignment)。以二进制形式存储 Wiggle 文件的格式称为 bigWig 格式。

图 3. Wiggle 格式

⑻ GFA（Graphical Fragment Assembly Format）：表示装配图的文件。不经常使用。

① H（标头）：无固定值

② S（线段）：表示一个顶点及其补集。固定值为 segName、segSeq。

③ L（重叠）：表示一条边及其补集。固定值为 segName1、segOri1、segName2、segOri2、CIGAR。

⑼ FASTG：GFA 之前表示装配图的文件格式。

① 术语有些不同：实际的顶点表示为边，边表示为邻接。

② 可以使用嵌套表示子图：缺乏处理此问题的算法被指出是 FASTG 的主要限制。

⑽ PAF

⑾ 标签对齐

⑿ SJ.out.tab

chr1	1564692	1565018	1	1	1	2	0	6
chr1	1564947	1564947 1565018	1	1	1	2	0	24
chr1	1565085	1565085 1565671	1	1	1	15	15 0	22	22
chr1	1571844	1572043	1572043 2	2	1	17	17 0	21	21
chr1	1572161	1572258	1572258 2	2	1	5	0	5
chr1	1572367	1572442	2	2	1	13	0	20

表 7. SJ.out.tab 파일 예시

① 第 1 列：染色体

② 第 2 列：内含子的第一个碱基（1-based）

③ 第 3 列：内含子的最后一个碱基（1 基）

④ 第 4 列：链（0：未定义，1：+，2：-）。第 4 列和第 5 列高度相关。

⑤ 第 5 列：内含子基序。 0：非规范； 1：GT/AG、2：CT/AC、3：GC/AG、4：CT/GC、5：AT/AC、6：GT/AT

⑥ 第 6 列：0：未注释，1：已注释（仅当使用熔接点数据库时）

⑦ 第 7 列：穿过连接点的唯一映射读取数

⑧ 第 8 列：穿过交叉点的多重映射读取数

⑨ 第 9 列：最大拼接对齐悬伸。每个拼接读数的突出部分计算为供体和受体片段长度的最小值。然后，对于在相同连接处拼接的所有读取，报告最大悬垂……以了解最可靠的拼接读取。

⒀ fam：PLINK 格式

图4. fam 文件

⒁ bim：PLINK格式

图5. bin文件

输入：2023.08.03 17:05

7070

了解数据格式

1. FASTQ（快速-Q）

2. FASTA（快-A）

3. GFF（通用特征格式）

4. GTF（基因转移格式）

5。 SAM（序列比对/MAP 格式）

6。 BAM（二进制对齐图）

7.BED 文件

8. Loom 文件

9.VCF 文件

10.其他文件类型

results matching ""

No results matching ""