第 11 章.生物信息学
推荐文章:【生物学】【生物学目录】(https://jb243.github.io/pages/1457)
1. 概述
2. 比较基因组学
3. 功能基因组学
4. 表观遗传学
5. 宏基因组学
6. 转录组学
7. 蛋白质组学
8. 代谢组学
9. 药物基因组学
10. 表型组学
11. 放射组学
a. 【生物信息学分析目录】(https://jb243.github.io/pages/836)
b. 转录组分析管道
c. 细胞类型标记基因
1.概述
⑴ 癌症类型 > 102
⑵ 每年癌症患者 ~ 2 × 106
⑶ 转录因子~1600
⑷ 驱动突变 ~ 105
⑸ 变体组合 ~ 100000C6
⑹ 细胞类型和状态 ~ 104
⑺ 基因组合 ~ 1013
⑻ 抗体序列 ~ 2032
⑼ 小分子 ~ 1060
2.比较基因组学
⑴ 人类基因组的特征
① 人类基因组由31亿个碱基对组成。
② 不到1/3被转录成RNA,只有约5%编码蛋白质。
③ 编码蛋白质的基因数量约为20,000至25,000个:与其他哺乳动物相似。
④ 基因平均长度约为 3,000 个碱基。
⑤ 所有人类至少 99.9% 相同。
⑥ 人类基因组包含大量重复序列。
⑦ 不到7%的蛋白质编码基因是脊椎动物特有的。
⑵ 原核基因 vs 真核基因
① 多顺反子 mRNA 与 单顺反子 mRNA(一个 mRNA 编码的蛋白质数量)
② 内含子 (×) 与 内含子 (O)
③ 转录与翻译同时性(O) vs 转录与翻译同时性(×)
④ mRNA 处理 (×) 与 mRNA 处理 (O)
⑶ 不同生物体基因组大小和基因数量比较
| 生物体类型 | 子类别 | 物种 | 基因组大小(Mb:106) | 蛋白质编码基因的数量 | 蛋白质编码序列 (%) | |
|---|---|---|---|---|---|---|
| 原核生物 | 支原体 | 0.58 | 0.58 470 | 470 88 | 88 | |
| 大肠杆菌 | 4.64 | 4.64 4,300 | 88 | 88 | ||
| 枯草芽孢杆菌 | 4.20 | 4.20 | ||||
| 真核生物 | 真菌 | 酵母 | 12.6 | 12.6 6,200 | 70 | 70 |
| 曲霉菌 | 25.4 | 25.4 | ||||
| 原生动物 | 四膜虫 | 190 | 190 | |||
| 无脊椎动物 | 线虫 | 100 | 100 21,000 | 25 | 25 | |
| 果蝇 | 180 | 180 15,000 | 13 | |||
| 蚕 | 490 | 490 | ||||
| 海胆 | 845 | 845 | ||||
| 脊椎动物 | 河豚 | 400 | ||||
| 人类 | 3,000 | 〜23,500 | 1.5 | 1.5 | ||
| 鼠标 | 3,300 | 3,300 | ||||
| 植物 | 拟南芥 | 125 | 125 26,000 | 25 | 25 | |
| 稻米 | 440 | 440 35,000 ~ 50,000 | 10 | 10 | ||
| 豌豆 | 4,800 | |||||
| 玉米 | 5,000 | |||||
| 小麦 | 17,000 |
表 1. 各种生物体的基因组大小
①维持生命的最低基因数:生殖支原体的470个基因中,有337个是必需的。
② 基因组大小与生物体复杂性之间的相关性较弱。
③ 由于频繁的多倍化,植物基因组很大。⑷ 单细胞原核和真核基因组比较
| 大肠杆菌 | 酵母 | ||
|---|---|---|---|
| 基因组大小(碱基对) | 4,640,000 | 12,068,000 | 12,068,000 |
| 蛋白质编码基因的数量 | 4,300 | 6,200 | |
| 新陈代谢 | 650 | 650 650 | 650 |
| 能源生产和储存 | 240 | 240 175 | 175 |
| 膜转运蛋白 | 280 | 280 250 | 250 |
| DNA 复制、修复和重组 | 120 | 120 175 | 175 |
| 转录 | 230 | 230 400 | |
| 翻译 | 180 | 180 350 | 350 |
| 蛋白质输送和分泌 | 35 | 35 430 | 430 |
| 细胞结构 | 180 | 180 250 | 250 |
表 2. 大肠杆菌和酵母的比较
⑸ 多细胞生物特征所需的必需基因(例如秀丽隐杆线虫)。
| 功能 | 蛋白质结构域 | 基因 | |
|---|---|---|---|
| 转录调控 | 锌指;同源框 | 540 | 540 |
| RNA 处理 | RNA 结合域 | 100 | 100 |
| 动作电位传输 | 门控离子通道 | 80 | |
| 组织形成 | 胶原蛋白 | 170 | 170 |
| 细胞相互作用 | 胞外结构域;糖基转移酶 | 330 | 330 |
| 细胞间信号传导 | G蛋白偶联受体、蛋白激酶、蛋白磷酸酶 | 1,290 | 1,290 |
表 3. 秀丽隐杆线虫 (C. elegans)
⑹ 人类和小鼠基因组比较
① 人类和小鼠的核苷酸序列大约有 50% 的差异,并在大约 7500 万年前出现分歧。
② 基因组大小或拥有的基因数量无显着差异;只是转座子(一种重复序列元素)的分布有所不同。
③ 基因组组成:大约发生了180次断裂和重组事件,超过90%的基因组以块的形式移动(保守同线性)。
⑺ 人类与黑猩猩的比较
① 人类与黑猩猩的基因差异仅为1.23%。
⑻ 线粒体和叶绿体的比较
① 线粒体基因组:16,569 bp。 37个基因。
○ 许多线粒体蛋白源自细胞核。
○ 示例:β-氧化和TCA循环酶是从细胞质转运的。
○ 有些蛋白质是从线粒体 DNA 转录和翻译的。
○ 示例:电子传递链蛋白和ATP合成酶独立合成。
○ 终止密码子:CAG
② 叶绿体基因组学
○ 独立合成【卡尔文循环】(https://jb243.github.io/pages/70#4-photosynthesis)酶。
○ Rubisco 大亚基在叶绿体中产生,小亚基在细胞质中产生。
○ 不仅β-氧化酶和TCA循环酶,而且电子传递链蛋白和ATP合成酶也从细胞质转运。
③叶绿体基因组比线粒体基因组大得多。
○ 线粒体:重复序列,无内含子。
○ 叶绿体:重复序列,许多内含子。
○ 大多数线粒体基因已转移至细胞核。
3。功能基因组学
⑴ 概述
①定义:研究DNA的所有功能,包括内含子和调控元件。
② 利用WGS、WES、GWAS、Chip-seq等测序技术。
⑵ 遗传物质的运动
① 病毒
② 【细菌重组】(https://jb243.github.io/pages/554#2-bacterial-recombination)
③ 移动DNA: 转座子、逆转录转座子、LINE、SINE
⑶ 中频重复序列
①VNTR(Variable Number Tandem Repeats,比较长)、STR(Short Tandem Repeats,比较短)、端粒。
② 遗传预期:随着世代的增加,重复序列会扩展,导致疾病发生的可能性更高(例如亨廷顿病)。
⑷ 高频重复序列
① 高度浓缩。> ②着丝粒,卫星。
⑸ 卫星DNA
① 富含A-T的重复DNA。
② 浮力密度低。
⑹ 多基因家族
① 同源基因家族(如rRNA)
② 旁系同源基因家族(例如血红蛋白)
⑺ 单核苷酸多态性(SNP)
⑻ 拷贝数变异(CNV)
⑼ 杂合性丢失(LOH)
⑽ 基因组重排
⑾ 稀有变体
4。 表观遗传学
⑴ 概述
① 环形成:当编码 DNA 上存在反向重复序列时,可能会发生环形成。
② 内在转录终止子、t-RNA、端粒tetra G等有助于环的形成。
⑵ 子字段
① BS-seq(二硫键测序)
② ChIP-seq(染色质免疫沉淀测序)
③ Hi-C测序(高通量染色质构象捕获测序)
④ ATAC-seq(批量和单细胞)
⑤ NOMe 序列
5。宏基因组学
⑴ 定义:给定环境中存在的所有微生物基因组的集合。
⑵ 又称宏基因组、群落基因组学、泛基因组学。
6。转录组学
⑴ 定义
①转录RNA功能的研究。
② 使用 RNA,与蛋白质相比,其敏感性明显更高。
⑵ 子字段
① 批量转录组学(批量 RNA-seq)
② 单细胞转录组学(单细胞RNA-seq):2013年度方法。
③ 空间转录组学(空间RNA-seq):2020 年年度方法。
④ 结构转录组学:与表观遗传学相关。
⑤ 选择性剪接和异构体分析:2022 年年度方法。
⑥ RNA干扰:miRNA、siRNA等。
⑦ 长非编码RNA
⑧ 小RNA
⑨ 假基因:已转录但未翻译的基因。
○ 类型1: 通过逆转录转座子进行复制,但内含子和启动子丢失的情况。
○ 类型2: 基因因累积突变而失效的情况。
7.蛋白质组学
⑴ 概述
①定义:翻译蛋白表达模式的研究。
② 针对超过一百万种蛋白质。
③ 转录组学只能解释大约 40% 的实际蛋白质组学。
图 1. NIH3T3 细胞中 mRNA 丰度与蛋白质丰度
④优点:检测与生理现象密切相关的生物标志物。
⑤ 缺点:与DNA和RNA相比灵敏度较低。
⑵ 子领域
① 蛋白表达:细胞因子芯片等
② PTM(翻译后修饰)
③ 结构蛋白质组学
○ 蛋白质的四级结构(即组成蛋白质的多个多肽)。
○ 一级结构相距较远的氨基酸实际上可能很接近。
○ 示例:在胰蛋白酶原中,形成催化三联体的 His 和 Ser 在一级结构中距离较远,但聚集在一起形成单个活性位点。
○ 通常,为了分析蛋白质序列,使用肽酶(蛋白酶)将其分解成一定长度或更短的片段。
④ 磷酸化蛋白质组学
⑤ 糖组学
8.代谢组学
⑴ 代谢物分析:在血清、血浆、尿液、脑脊液等中进行。
⑵ 串联质谱
9。药理学
⑴ 概述:采用高通量筛选技术。
⑵ Affymetrix GeneChip:HG-U133 Plus 2.0 Array等。
⑶ Luminex 微珠阵列 (L1000)
⑷ Illumina Human HT-12 v4 Expression BeadChip 阵列
⑸ mRNA-seq(Illumina Hi-Seq)
⑹ GCP:组蛋白分析
⑺ P100:磷酸蛋白质组学
⑻ KINOME扫描
⑼ 基纳蒂夫
⑽ 梅玛
⑾ 酶联免疫吸附试验
⑿ RPPA
⒀ ATAC-seq
⒁ 地窖
⒂ SWATH-MS
10。表型组学
⑴ 癌症
⑵ 代谢综合征
⑶ 精神疾病
11。放射组学⑴ 定义:核医学影像与基因组信息的融合。
输入: 2021.06.12 13:56
修改: 2022.03.17 13:44