蛋白质组学分析流程
推荐帖子:【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)
1. 基序分析
2. 蛋白质-蛋白质相互作用
3. 蛋白质变异体功能的预测
a. 转录组学分析流程
1.基序分析
⑴ 序列标志
① 氨基酸或核苷酸多序列比对的图形表示
② 由 Tom Schneider 和 Mike Stephens 开发
③ y轴代表信息论中定义的信息内容
④ 示例1.当所有核苷酸序列(A、T、G、C)出现频率相同时:最大熵=2,实际熵=2,信息内容=0
⑤ 示例2. 仅出现1个核苷酸时: 最大熵=2,实际熵=0,信息含量=2
⑥ 示例3.当两个核苷酸出现频率相同时:最大熵=2,实际熵=1,信息含量=1
⑵ 现场
① 蛋白质模式数据库
② 使用正则表达式定义模式如下:
○ 当氨基酸已知时使用
○ 位置之间用“-”分隔
○ ‘x’ 是通配符
○ ‘[]’ 表示歧义,即[其中之一]
○ ‘{}’ 表示否定,即 {not one of}
○ ‘()’表示一个范围,即(min,max)
○ ‘<’ 或 ‘>’ 分别表示蛋白质的 N 末端或 C 末端
③ 示例
○ [AC]-x-V-x(4)-{ED} : [Ala 或 Cys]-any-Val-any-any-any-any-{除 Glu 或 Asp 之外的任何}
○ <A-x-)-V : 转换为 N 端 Ala-any-[Ser 或 Thr]-[Ser 或 Thr]-(任意或无)-Val
2.蛋白质-蛋白质相互作用(PPI;分子对接)
⑴ 要点
① 结合亲和力(BA)一般用解离常数(Kd)或抑制常数(Ki)来量化
② PPI 中的一般注意事项
○ 一般特征(例如原子类型)
○ 物理化学性质(例如排除体积、部分电荷、重原子邻居、杂原子邻居、杂交)
○ 药理特性(例如疏水性、芳香性、酸/碱、成环)
③ 数据集
○ 2016版PDBbind数据库
○ 子集 1. 一般集 : 包括所有数据,即 13,285 个蛋白质-配体复合物
○ 子集2.精炼集:通用集的子集,包含4,057个优质复合体
○ 子集 3. Core 2016 set : 从精炼集中提取的 290 个复合体,经常用作基准数据
○ CSAR-HiQ
○ CSAR-HiQ_51 : 从 176 个蛋白质-配体复合物的原始集合中提取的子集
○ CSAR-HiQ_36 : 从 167 个蛋白质-配体复合物的原始集合中提取的子集
○ 比奥利普
○ InterPepScore
④ 虽然蛋白质-配体相互作用的模型有多种,但蛋白质-蛋白质相互作用的模型仍然相对稀缺
⑵ 型号
① 概述
○ 分为结合位点预测模型和结合亲和力预测模型,虽然区别不严格
○ 一般来说,配体和受体之间的结合距离为 3 Å 或更小,被认为是强结合> ② 类型 1. AlphaFold2 多聚体,AFM-LIS,AlphaFold3
③ 类型 2. DeepDTA
④ 类型 3. DeepDTAF
⑤ 类型 4. DeepFusionDTA
⑥ 类型 5. GraphDTA
⑦ 类型 6. CAPLA
⑧ 7 型. GNINA
○ 使用 CNN 进行结合位点预测和亲和力评估
⑨ 类型 8. SMINA
○ 使用基于物理的评分函数进行结合位点预测和亲和力评估
⑩ 9 型. 滑行
○ 使用基于物理的评分函数进行结合位点预测和亲和力评估
⑪ 类型 10. EquiBind
○ 具有 SE(3) 等方差的 GNN
⑫ 类型 11. TANKBind
○ 使用了【Transformers】的注意力机制(https://jb243.github.io/pages/325#:-,14,-(transform))
⑬ 12 型. DIFFDOCK
○ 采用扩散模型。
⑭ 13. 型膜折叠
○ 对 AlphaFold 施加膜附着条件
⑮ 14 型. Boltz-2
○ 相对不受时间精度权衡的影响
○ 最近,Boltzgen 宣布——旨在创建基于 Boltz-2 的粘合剂
3。蛋白质变异功能的预测
⑴ PolyPhen-2 (Adzhubei et al., 2013)
⑵ SIFT (Kumar et al., 2009)
⑶ 突变品尝者(Schwarz et al., 2014)
⑷ 突变评估器 (Reva et al., 2011)
⑸ 轻轨和轻轨(Chun & Fay,2009)
输入:2024.03.31 01:08
修改: 2024.09.29 15:40