Korean, Edit

生物信息学附录

推荐:【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)


1. 生物信息学联盟

2. 数据增长率

3. 测序技术吞吐量



1.生物信息学联盟

【基因组计划】(https://jb243.github.io/pages/75)

① 于 1990 年在沃森和弗朗西斯·柯林斯的领导下开始:由六个国家组成的财团作为一个为期 15 年的项目启动

② 超过350家研究机构合作研究

○ 2000年6月:完成84.5%,草稿发表

○ 2003年4月15日:最终版本发布,准确率达到99.99%

○ 超过 2,800 名研究人员历时 13 年参与,耗资 27 亿美元

③人类基因组研究的副作用

○ [生物信息学]的诞生(https://jb243.github.io/pages/75)

○ 加速人类蛋白质生产工艺的发展

○ 胰岛素:第一个确定其序列的蛋白质

○ 推动自动化测序设备研发

○ 其他具有生物学意义的生物体的受激基因组分析

④ 科学家 vs 企业家

○ 科学家:人类基因组计划 (HGP)。沃森和弗朗西斯·柯林斯。最终成本:27亿美元

○ 企业家:Celera Genomics(1998 年成立)。克雷格·文特尔.最终成本:3亿美元

○ 两个小组均于 2001 年发表了人类基因组草图

○ 科学家对企业家将其工作和投资归功于自己的做法感到不满

○ 企业家对科学家隐瞒信息感到沮丧 → 催生了新方法

○ 基因组图谱的最终完成被认可为共同成就

ENCODE 项目

① 时间表:2001年草案 → 2003年,NHGRI启动ENCODE项目,鉴定人类基因组中的所有功能元件

② I 期:基因组的 1%。 2007年竣工

③ 第二阶段:扩建阶段。 2012年竣工

○ 第 7 版(2010 年 12 月)

○ 51,082 个基因:161,375 个转录本

○ 20,687 个蛋白质编码基因:76,052 个转录本

○ 9,640 个 lncRNA:15,512 个转录本

④ 第三阶段:生产阶段。 2016年竣工

⑤ 第四期:2016-2017年启动

○ 第 29 版(2018 年 5 月)

○ 58,721 个基因:206,694 个转录本

○ 19,940 个蛋白质编码基因:83,129 个转录本

○ 16,066 个 lncRNA:29,566 个转录本

○ 第 36 版(2020 年 5 月)

○ 60,660 个基因:232,117 个转录本

○ 19,962 个蛋白质编码基因:85,269 个转录本

○ 17,958 个 lncRNA:48,734 个转录本

千人基因组计划

① 对全球 26 个人群的 2,504 名个体进行全基因组测序,识别出超过 8800 万个遗传变异

② 典型基因组与参考人类基因组有409万至502万个位点不同,影响约2000万个碱基

GTEx 联盟

4D 核组联盟

泛基因组联盟:T2T(端粒到端粒)

Cellxgene 普查

【十亿细胞计划】(https://www.prnewswire.com/news-releases/chan-zuckerberg-initiative-launches-billion-cells-project-with-10x-genomics-and-ultima-genomics-to-advance-ai-in-biology-302369647.html)

GREGoR 联盟

Atlas Project: Allen Mouse Brain Atlas、BICAN、HubMap、ImmGen 等。



2.数据增长率


数据阶段 天文学 推特 YouTube 基因组学
  收购 25 zetta 字节/年 每年 0.5-15 亿条推文 500-9 亿小时/年 1 zetta 碱基/年
  存储 1 EB/年 1-17 PB/年 1-2 EB/年 2-40 EB/年
  分析 原位数据缩减 话题与情感挖掘 有限的要求 异构数据和分析
    实时处理 元数据分析   变体调用,约 2 万亿中央处理器 (CPU) 小时
    大量      
  分布 从天线到服务器的专用线路(600 TB/s) 小单位分配 现代用户带宽的主要组成部分(10 MB/s) 大量小型(10 MB/秒)和少量大规模(10 TB/秒)数据移动

表 1. 数据增长率(参考



3.测序技术吞吐量


平台 定序器模型 阅读长度 每次运行的读取次数
照明 iSeq 100 75-300 bp 400万
  迷你测序 75-300 bp 2500万
  米测序 75-300 bp 2500万
  NextSeq 550 75-150 bp 4亿
  NovaSeq 6000 75-300 bp 100亿
太平洋生物 续集 10-60 kb 100万
  续集 II 10-100 kb 700万
  续集 IIe 10-100 kb 800万
牛津纳米孔 米恩 10 kb - 1 Mb 100万
  网格 10 kb - 1 Mb 500万
  普罗米隆 24 10 kb - 1 Mb 1500 万
  普罗米隆 48 10 kb - 1 Mb 3000万

表 2. 测序技术吞吐量


○ 桑格双脱氧(毛细管电泳):700-800 bp 读取。非常高的准确度

○ 焦磷酸测序:~400 bp / 读

○ Illumina:~100 bp / 读(最近高达 250 bp)



输入:2022.02.21 12:51

修改: 2024.10.24 22:06

results matching ""

    No results matching ""