生物信息学附录

推荐：【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)

1. 生物信息学联盟

2. 数据增长率

3. 测序技术吞吐量

1.生物信息学联盟

⑴ 【基因组计划】(https://jb243.github.io/pages/75)

① 于 1990 年在沃森和弗朗西斯·柯林斯的领导下开始：由六个国家组成的财团作为一个为期 15 年的项目启动

② 超过350家研究机构合作研究

○ 2000年6月：完成84.5%，草稿发表

○ 2003年4月15日：最终版本发布，准确率达到99.99%

○ 超过 2,800 名研究人员历时 13 年参与，耗资 27 亿美元

③人类基因组研究的副作用

○ [生物信息学]的诞生(https://jb243.github.io/pages/75)

○ 加速人类蛋白质生产工艺的发展

○ 胰岛素：第一个确定其序列的蛋白质

○ 推动自动化测序设备研发

○ 其他具有生物学意义的生物体的受激基因组分析

④ 科学家 vs 企业家

○ 科学家：人类基因组计划 (HGP)。沃森和弗朗西斯·柯林斯。最终成本：27亿美元

○ 企业家：Celera Genomics（1998 年成立）。克雷格·文特尔.最终成本：3亿美元

○ 两个小组均于 2001 年发表了人类基因组草图

○ 科学家对企业家将其工作和投资归功于自己的做法感到不满

○ 企业家对科学家隐瞒信息感到沮丧 → 催生了新方法

○ 基因组图谱的最终完成被认可为共同成就

⑵ ENCODE 项目

① 时间表：2001年草案 → 2003年，NHGRI启动ENCODE项目，鉴定人类基因组中的所有功能元件

② I 期：基因组的 1%。 2007年竣工

③ 第二阶段：扩建阶段。 2012年竣工

○ 第 7 版（2010 年 12 月）

○ 51,082 个基因：161,375 个转录本

○ 20,687 个蛋白质编码基因：76,052 个转录本

○ 9,640 个 lncRNA：15,512 个转录本

④ 第三阶段：生产阶段。 2016年竣工

⑤ 第四期：2016-2017年启动

○ 第 29 版（2018 年 5 月）

○ 58,721 个基因：206,694 个转录本

○ 19,940 个蛋白质编码基因：83,129 个转录本

○ 16,066 个 lncRNA：29,566 个转录本

○ 第 36 版（2020 年 5 月）

○ 60,660 个基因：232,117 个转录本

○ 19,962 个蛋白质编码基因：85,269 个转录本

○ 17,958 个 lncRNA：48,734 个转录本

⑶ 千人基因组计划

① 对全球 26 个人群的 2,504 名个体进行全基因组测序，识别出超过 8800 万个遗传变异

② 典型基因组与参考人类基因组有409万至502万个位点不同，影响约2000万个碱基

⑷ GTEx 联盟

⑸ 4D 核组联盟

⑹ 泛基因组联盟：T2T（端粒到端粒）

⑺ Cellxgene 普查

⑻ 【十亿细胞计划】(https://www.prnewswire.com/news-releases/chan-zuckerberg-initiative-launches-billion-cells-project-with-10x-genomics-and-ultima-genomics-to-advance-ai-in-biology-302369647.html)

⑼ GREGoR 联盟

⑽ Atlas Project： Allen Mouse Brain Atlas、BICAN、HubMap、ImmGen 等。

2.数据增长率

数据阶段	天文学	推特	YouTube	基因组学
收购	25 zetta 字节/年	每年 0.5-15 亿条推文	500-9 亿小时/年	1 zetta 碱基/年
存储	1 EB/年	1-17 PB/年	1-2 EB/年	2-40 EB/年
分析	原位数据缩减	话题与情感挖掘	有限的要求	异构数据和分析
	实时处理	元数据分析		变体调用，约 2 万亿中央处理器 (CPU) 小时
	大量
分布	从天线到服务器的专用线路（600 TB/s）	小单位分配	现代用户带宽的主要组成部分（10 MB/s）	大量小型（10 MB/秒）和少量大规模（10 TB/秒）数据移动

表 1. 数据增长率（参考）

3.测序技术吞吐量

平台	定序器模型	阅读长度	每次运行的读取次数
照明	iSeq 100	75-300 bp	400万
	迷你测序	75-300 bp	2500万
	米测序	75-300 bp	2500万
	NextSeq 550	75-150 bp	4亿
	NovaSeq 6000	75-300 bp	100亿
太平洋生物	续集	10-60 kb	100万
	续集 II	10-100 kb	700万
	续集 IIe	10-100 kb	800万
牛津纳米孔	米恩	10 kb - 1 Mb	100万
	网格	10 kb - 1 Mb	500万
	普罗米隆 24	10 kb - 1 Mb	1500 万
	普罗米隆 48	10 kb - 1 Mb	3000万

表 2. 测序技术吞吐量

○ 桑格双脱氧（毛细管电泳）：700-800 bp 读取。非常高的准确度

○ 焦磷酸测序：~400 bp / 读

○ Illumina：~100 bp / 读（最近高达 250 bp）

输入：2022.02.21 12:51

修改: 2024.10.24 22:06

6077

生物信息学附录

1.生物信息学联盟

2.数据增长率

3.测序技术吞吐量

results matching ""

No results matching ""