Korean, Edit

了解数据格式

推荐帖子:【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)


1. FASTQ 文件

2. FASTA 文件

3. GFF 文件

4. GTF 文件

5. BAM 文件

6. SAM 文件

7. 床文件

8. Loom 文件

9. VCF 文件

10. 其他文件类型



1. FASTQ(快速-Q)


受保护_0


⑴ 存储样本的序列信息。

第1行:SEQ_ID,即@+序列标识符+可选描述。

示例1: @HWUSI-EAS100R:6:73:941:1973#0/1


HWUSI-EAS100R 独特的仪器名称
6 流通池泳道
73 73流通池通道内的瓷砖数量
941 941 ‘x’-图块内簇的坐标
1973 ‘y’-图块内簇的坐标
#0 多重样本的索引号(0 表示无索引)
/1 一对成员,/1 或 /2(配对端或配对只读)

表 1. SEQ_ID 示例([ref](https://en.wikipedia.org/wiki/FASTQ_format#:~:text=FASTQ%20format%20is%20a%20text,single%20ASCII%20character%20for%20brevity。))


示例2: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG


EAS139 独特的仪器名称
136 136运行 ID
FC706VJ 流通池 ID
2 流通池泳道
2104 2104流通池通道内的瓷砖数量
15343 ‘x’-图块内簇的坐标
197393 ‘y’-图块内簇的坐标
1 一对的成员,1 或 2(配对端或配对只读)
如果读取被过滤(未通过)则为 Y,否则为 N
18 18当没有控制位打开时为 0,否则为偶数
ATCACG 索引序列

表 2. SEQ_ID 示例([ref](https://en.wikipedia.org/wiki/FASTQ_format#:~:text=FASTQ%20format%20is%20a%20text,single%20ASCII%20character%20for%20brevity。))


第2行:原始序列

第 3 行:“+”+(可选)序列标识符

第 4 行:第 2 行中序列的质量得分。

① Phred 质量得分 = Q = Qsanger = -10 log10 P(其中 P 是碱基检出错误概率)。

示例 1. 1000 中有 1 个错误 = Qsanger 30

示例 2. 10000 中有 1 个错误 = Qsanger 40

② 以 ASCII 字符表示,字符数与原始序列的长度匹配。

类型1: PHRED 33 编码


图片

表 3. PHRED 33 编码


○ 目前使用最广泛的格式。

○ Phred 分数加 33 后以 ASCII 代码表示。即,将 0-93 映射到 ASCII 33-126。

类型2: PHRED 64 编码


图片表 4. PHRED 64 编码



2. FASTA(快-A)

⑴ 概述

① 存储参考的序列信息

② 标题行以“>”符号开始。

③ 适用于DNA、RNA、蛋白质。

⑵ 示例:GFP 的 FASTA 文件。


受保护_1


3. GFF(通用特征格式)

⑴ 概述

① 存储参考文献中的注释信息。与 GTF 的格式略有不同。

② 1启动、全闭

○ 但是,对于 UCSC Genome Browser 等 Web 浏览器,它们使用 0 启动、半开放系统。


rs782519173 (hg38) 开始 结束
位于网络浏览器中(1-启动,完全关闭) 133255708 133255708
存储在表中(0-开始,半开) 133255707 133255708

表 5. 从零开始与从一开始


③ GFF 前八个字段分别是 seqname(#seqid)、source、feature(type)、start、end、score、strand、frame(phase)、attributes:与 GTF 相同。

○ seqname:染色体或支架的名称。

○ 来源:生成此功能的程序的名称或数据源。

○ feature - 特征类型名称,例如基因、变异、相似性。

○ start:特征的起始位置,序列编号从1开始。

○ end:特征的结束位置(含),序列编号从1开始。非编码RNA的编码起始列和编码结束列相同。始终等于或大于 start

○ 分数:浮点值。

○ 股:定义为+(正向)或-(反向)。 “+”链上基因的转录起始位点由 start 定义,但“-”链上基因的转录起始位点由 end 定义。

○ 帧 - “0”、“1”或“2”之一。 “0”表示该特征的第一个碱基是密码子的第一个碱基,“1”表示第二个碱基是密码子的第一个碱基,等等。

○ 属性:以分号分隔的标记值对列表,提供有关每个功能的附加信息。

④ 与GTF不同的是,没有额外的字段:例如GFF中不保留gene_id和transcript_id之间的层次关系。

GTF 到 GFF 转换


受保护_2


GFF 到 GTF 转换


受保护_3



4. GTF(基因转移格式)

⑴ 概述

① 保存参考文献的注释信息

② 前8个字段与GFF相同

③ GTF除了GFF外,特征列中还包括5UTR、3UTR、inter、inter_CNS、intron_CNS

④ 组字段是一个属性列表:每个属性以分号结尾,并且正好用一个空格分隔

⑵ 示例:MUC1 基因和一个转录本的 GTF 文件的内容。


受保护_4


① NM_000001.11:参考入藏号。 “NM_000001”指的是1号染色体,“.11”是第11个版本。

② BestRefSeq、RefSeq、Gnomon、HAVANA 等:引用类型。

③ GTF行包括gene、transcript、exon、CDS、domain、group、start_codon、stop_codon等。

④ 第一行数字155185825和155192915表示MUC1基因跨越FASTA序列中第155185825个碱基到第155192915个碱基。

⑤ +、-:(+) 表示该基因位于正向(= 正、有义)链上,(-) 表示该基因位于反向(= 负、反义)链上。

⑥ 0、1、2:在CDS中,0、1、2分别对应解码帧的第1、2、3个碱基。

⑦ 一个基因可以有多个转录本:基因和转录本通过gene_id、gene等联系起来。> ⑧ 每个转录本可以有多个外显子特征:转录本和外显子通过transcript_id链接。

⑨ CDS(蛋白质编码序列)通常是外显子的子集:一些外显子与 CDS 相同。

⑩ 某些基因可能缺少起始密码子或终止密码子(例如 LOC102724389)。



5。 SAM(序列比对/MAP 格式)

⑴ 存储将 FASTQ 文件映射到参考文件(例如 GTF)的结果的文件。

⑵ 解释:由实线组成如下。


受保护_5


① QNAME(查询模板NAME):读取的查询名称。在双端测序的情况下,每对的 QNAME 是相同的。

② FLAG:按位标志(配对、链等)

③ RNAME(参考序列NAME):参考序列名称

④ POS (1-based leftmost mapping Position):从1开始的对齐最左位置

⑤ MAPQ(映射质量):Phred 尺度

CIGAR(简明特殊间隙对齐报告)字符串(操作:MIDNSHP)


受保护_6


⑦ RNEXT

⑧ PNEXT

⑨ TLEN(观察到的模板长度)

⑩ SEQ(段SEQuence)

⑪ QUAL(质量)

⑫ NH:i:报告的包含读数的比对数。

⑬ HI:i:命中指数。

⑭ AS:i:对齐分数。

⑮ nM:i:不匹配的数量。

⑯ ts:i:附加标签,可能特定于对准器或分析管道。

⑰ RG:Z:读取组标识符。

⑱ TX:Z、GX:Z、GN:Z、fx:Z:与读取的基因或转录本相关的标签与您的查询对齐。

⑲ xf:i:特定软件使用的附加标志。

⑳ CR:Z、CY:Z、UR:Z、UY:Z、UB:Z:与细胞条形码和唯一分子标识符 (UMI) 相关的字段,这些字段在单细胞测序技术中非常重要。

㉑ MRNM:配合名称(配合名称:* 如果不适用;= 如果相同)

㉒ MPOS:从 1 开始的配合最左边位置

㉓ ISIZE:推断的插入大小(上游读取的最左边到下游读取的最右边)

㉔ SEQQuery:参考上的序列(同一链)

㉕ QUAL:查询质量(Phred-scaled)



6。 BAM(二进制对齐图)

⑴ BAM 是 SAM 的二进制版本(人类不可读)。使用较少的空间,因此通常是首选。

⑵ 经常需要对SAM或BAM文件进行排序。

⑶ 碱基修改信息可以使用两个新标签(MM和ML)存储在比对文件中

① ML标签:B、C;碱基修饰概率

② MM标签:Z;碱基修饰/甲基化

③ 甲基化SAM标签


스크린샷 2025-09-24 오후 10 21 54

表 6. SAM 标签


④ MM标签示例:C+m,5,12,0

○ 前 5 个 C 碱基未修饰。

○ 第 6 个 C 已修改,接下来的 12 个 C 未修改。

○ 第 19 个 C 被修改,然后接下来的 0 个 C 未修改。

○ 修改了20号C。



7.BED 文件


图片

图 1. BED 格式


⑴ 表示比对结果的最小格式

⑵ 对于表示感兴趣的特征非常有用,例如增强子、SNP、ChIP-seq 峰、外显子等。

⑶ 制表符分隔。

⑷ 3个必填字段:chrom、chromStart、chromEnd

① chrom:染色体名称

② chromStart:0-偏移(从“0”开始)。功能开始

③ chromEnd:1 偏移量。功能结束

⑸ 9 个附加字段:name、score、strand、thickStart、thickEnd、itemRgb、blockCount、blockSizes、blockStarts

①评分:0-1000之间的评分

② 链:映射质量(Phred-scaled)



8. Loom 文件

⑴ 基因表达数据:.h5文件的内容⑵(可选)剪接和未剪接RNA转录本层:如果使用RNA速度感知工具

⑶(可选)单元元数据层

⑷(可选)基因元数据层



9.VCF 文件

⑴ 样本→原始序列(FASTA/FASTQ)→对齐读取(BAM/SAM)→变体调用(VCF)

⑵ 文件结构


图片

表 6. VCF 文件的结构


① #CHROM:染色体标识符。示例包括 7、chr7、X 或 chrX。

② POS:参考位置。在每条染色体内按升序排序。

③ ID:唯一标识符,以分号分隔。不允许有空格。

④ REF:参考碱基(A、C、G、T)。插入可以用点(.) 表示。

⑤ ALT:以分号分隔的替代碱基(A、C、G、T)。删除由点 (.) 表示。

⑥ QUAL:以对数刻度表示的质量分数。分数 100 表示错误概率为十分之一10

⑦ FILTER:表示失败的过滤器,以分号分隔。可标记为 PASS 或 MISSING。

⑧ INFO:位置级别信息(不包括样本),以分号分隔的名称-值格式。

○ NS(样本数):检测到变异的样本数。

○ DP(深度):读取该位置的深度。 DP=14表示在该位置总共读取了14个序列。

○ AF(等位基因频率):等位基因的频率。

○ AA(祖先等位基因):祖先等位基因。

○ DB (dbSNP):表示该变体已在 dbSNP 中注册。

○ H2 (HapMap2):表示该变体已包含在 HapMap2 项目数据库中。

⑨ FORMAT:样本级字段名称的声明,以分号分隔。

○ GT(基因型):表示用斜线(/,不定相)或竖线(|,定相)分隔的等位基因。

○ GQ:基因型质量以单个整数表示。

○ DP:读取深度,以单个整数表示。

○ HQ:单倍体质量,由两个整数组成,以逗号分隔。

:与FORMAT字段声明对应的样本级字段数据,以分号分隔。

⑶ 解释

① 所有变异均发生在 NCBI36 (hg18) 的 20 号染色体上。

② 鉴定出 5 个 SNP 位点(14370、17330、1110696、1230237、1234567)。

③ 三个变体都有ID,其中包括两条dbSNP记录(rs6054257、rs6040355)。

④ 前两个位置(14370、17330)是简单的单核苷酸多态性。

⑤ 第三个位置包含两个替代等位基因(G 和 T),替换参考碱基(A)。

⑥ 第四个位置代表 T 的缺失,没有替代等位基因(“.”)。

⑦第五个条目包含两个替代等位基因:第一个是TC的删除,第二个是T的插入。

⑷ 压缩:利用HTSlib

方法1. bgzip MyFile.vcf (gzip的修改版本,用于压缩VCF文件)

方法2. tabix -p vcf MyFile.vcf.gz(索引使用bgzip压缩的文件)

方法3. tabix -h MyFile.vcf.gz chr1:5363-5463(用坐标范围对文件进行子集化)



10.其他文件类型

HDF(分层数据格式)

⑵ 临时存储器

⑶ 扁平

⑷ AGP

⑸ GB/GBK

⑹ BEDgraph:与[变体调用]相关(https://jb243.github.io/pages/2050#4-qc-4-alignment)。


图片

图 2. BEDgraph 格式


⑺ Wiggle:与[变体调用]相关(https://jb243.github.io/pages/2050#4-qc-4-alignment)。以二进制形式存储 Wiggle 文件的格式称为 bigWig 格式。


图片

图 3. Wiggle 格式


⑻ GFA(Graphical Fragment Assembly Format):表示装配图的文件。不经常使用。

① H(标头):无固定值

② S(线段):表示一个顶点及其补集。固定值为 segName、segSeq。

③ L(重叠):表示一条边及其补集。固定值为 segName1、segOri1、segName2、segOri2、CIGAR。

⑼ FASTG:GFA 之前表示装配图的文件格式。

① 术语有些不同:实际的顶点表示为边,边表示为邻接。

② 可以使用嵌套表示子图:缺乏处理此问题的算法被指出是 FASTG 的主要限制。

⑽ PAF

⑾ 标签对齐

⑿ SJ.out.tab


chr1 1564692 1565018 1 1 1 2 0 6  
chr1 1564947 1564947 1565018 1 1 1 2 0 24  
chr1 1565085 1565085 1565671 1 1 1 15 15 0 22 22
chr1 1571844 1572043 1572043 2 2 1 17 17 0 21 21
chr1 1572161 1572258 1572258 2 2 1 5 0 5  
chr1 1572367 1572442 2 2 1 13 0 20  

表 7. SJ.out.tab 파일 예시


① 第 1 列:染色体 

② 第 2 列:内含子的第一个碱基(1-based)

③ 第 3 列:内含子的最后一个碱基(1 基)

④ 第 4 列:链(0:未定义,1:+,2:-)。第 4 列和第 5 列高度相关。

⑤ 第 5 列:内含子基序。 0:非规范; 1:GT/AG、2:CT/AC、3:GC/AG、4:CT/GC、5:AT/AC、6:GT/AT

⑥ 第 6 列:0:未注释,1:已注释(仅当使用熔接点数据库时)

⑦ 第 7 列:穿过连接点的唯一映射读取数 

⑧ 第 8 列:穿过交叉点的多重映射读取数 

⑨ 第 9 列:最大拼接对齐悬伸。每个拼接读数的突出部分计算为供体和受体片段长度的最小值。然后,对于在相同连接处拼接的所有读取,报告最大悬垂……以了解最可靠的拼接读取。


⒀ fam:PLINK 格式


图片

图4. fam 文件


⒁ bim:PLINK格式


图片

图5. bin文件



输入:2023.08.03 17:05

results matching ""

    No results matching ""