生物信息学附录
推荐:【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)
1. 生物信息学联盟
2. 数据增长率
3. 测序技术吞吐量
1.生物信息学联盟
⑴ 【基因组计划】(https://jb243.github.io/pages/75)
① 于 1990 年在沃森和弗朗西斯·柯林斯的领导下开始:由六个国家组成的财团作为一个为期 15 年的项目启动
② 超过350家研究机构合作研究
○ 2000年6月:完成84.5%,草稿发表
○ 2003年4月15日:最终版本发布,准确率达到99.99%
○ 超过 2,800 名研究人员历时 13 年参与,耗资 27 亿美元
③人类基因组研究的副作用
○ [生物信息学]的诞生(https://jb243.github.io/pages/75)
○ 加速人类蛋白质生产工艺的发展
○ 胰岛素:第一个确定其序列的蛋白质
○ 推动自动化测序设备研发
○ 其他具有生物学意义的生物体的受激基因组分析
④ 科学家 vs 企业家
○ 科学家:人类基因组计划 (HGP)。沃森和弗朗西斯·柯林斯。最终成本:27亿美元
○ 企业家:Celera Genomics(1998 年成立)。克雷格·文特尔.最终成本:3亿美元
○ 两个小组均于 2001 年发表了人类基因组草图
○ 科学家对企业家将其工作和投资归功于自己的做法感到不满
○ 企业家对科学家隐瞒信息感到沮丧 → 催生了新方法
○ 基因组图谱的最终完成被认可为共同成就
⑵ ENCODE 项目
① 时间表:2001年草案 → 2003年,NHGRI启动ENCODE项目,鉴定人类基因组中的所有功能元件
② I 期:基因组的 1%。 2007年竣工
③ 第二阶段:扩建阶段。 2012年竣工
○ 第 7 版(2010 年 12 月)
○ 51,082 个基因:161,375 个转录本
○ 20,687 个蛋白质编码基因:76,052 个转录本
○ 9,640 个 lncRNA:15,512 个转录本
④ 第三阶段:生产阶段。 2016年竣工
⑤ 第四期:2016-2017年启动
○ 第 29 版(2018 年 5 月)
○ 58,721 个基因:206,694 个转录本
○ 19,940 个蛋白质编码基因:83,129 个转录本
○ 16,066 个 lncRNA:29,566 个转录本
○ 第 36 版(2020 年 5 月)
○ 60,660 个基因:232,117 个转录本
○ 19,962 个蛋白质编码基因:85,269 个转录本
○ 17,958 个 lncRNA:48,734 个转录本
⑶ 千人基因组计划
① 对全球 26 个人群的 2,504 名个体进行全基因组测序,识别出超过 8800 万个遗传变异
② 典型基因组与参考人类基因组有409万至502万个位点不同,影响约2000万个碱基
⑷ GTEx 联盟
⑸ 4D 核组联盟
⑹ 泛基因组联盟:T2T(端粒到端粒)
⑺ Cellxgene 普查
⑻ 【十亿细胞计划】(https://www.prnewswire.com/news-releases/chan-zuckerberg-initiative-launches-billion-cells-project-with-10x-genomics-and-ultima-genomics-to-advance-ai-in-biology-302369647.html)
⑼ GREGoR 联盟
⑽ Atlas Project: Allen Mouse Brain Atlas、BICAN、HubMap、ImmGen 等。
2.数据增长率
| 数据阶段 | 天文学 | 推特 | YouTube | 基因组学 | |
|---|---|---|---|---|---|
| 收购 | 25 zetta 字节/年 | 每年 0.5-15 亿条推文 | 500-9 亿小时/年 | 1 zetta 碱基/年 | |
| 存储 | 1 EB/年 | 1-17 PB/年 | 1-2 EB/年 | 2-40 EB/年 | |
| 分析 | 原位数据缩减 | 话题与情感挖掘 | 有限的要求 | 异构数据和分析 | |
| 实时处理 | 元数据分析 | 变体调用,约 2 万亿中央处理器 (CPU) 小时 | |||
| 大量 | |||||
| 分布 | 从天线到服务器的专用线路(600 TB/s) | 小单位分配 | 现代用户带宽的主要组成部分(10 MB/s) | 大量小型(10 MB/秒)和少量大规模(10 TB/秒)数据移动 |
表 1. 数据增长率(参考)
3.测序技术吞吐量
| 平台 | 定序器模型 | 阅读长度 | 每次运行的读取次数 |
|---|---|---|---|
| 照明 | iSeq 100 | 75-300 bp | 400万 |
| 迷你测序 | 75-300 bp | 2500万 | |
| 米测序 | 75-300 bp | 2500万 | |
| NextSeq 550 | 75-150 bp | 4亿 | |
| NovaSeq 6000 | 75-300 bp | 100亿 | |
| 太平洋生物 | 续集 | 10-60 kb | 100万 |
| 续集 II | 10-100 kb | 700万 | |
| 续集 IIe | 10-100 kb | 800万 | |
| 牛津纳米孔 | 米恩 | 10 kb - 1 Mb | 100万 |
| 网格 | 10 kb - 1 Mb | 500万 | |
| 普罗米隆 24 | 10 kb - 1 Mb | 1500 万 | |
| 普罗米隆 48 | 10 kb - 1 Mb | 3000万 |
表 2. 测序技术吞吐量
○ 桑格双脱氧(毛细管电泳):700-800 bp 读取。非常高的准确度
○ 焦磷酸测序:~400 bp / 读
○ Illumina:~100 bp / 读(最近高达 250 bp)
输入:2022.02.21 12:51
修改: 2024.10.24 22:06