小分子药物数据库的类型
推荐帖子: 【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)
1. 蛋白质表示
2. 分子表示
3. 小分子数据库
4. 小分子模拟
5. 药物基因组数据库
a. 药理学
1.蛋白质表示
⑴ AAC(氨基酸成分)- 20D
⑵ 二肽成分描述符 - 400D
⑶ 三肽成分描述符 - 8000D
⑷ 组合、转换和分布(CTD)- 147D
⑸ ProtVec(Asgari 等人,PLoS ONE 10(11):e0141287,2015)
2.分子表示
⑴ 结构基础
① 基于模式的函数式编程
○ MACCS、PubChem、FP3、FP4
⑵ 拓扑结构
① 基于路径的函数式编程
○ 日光,FP2
② 圆形FP
○ ECFP2、ECFP4、ECFP6
③药效团FP
○ 二维药效团
⑶ 基于神经网络
① 基于图的表示
○ GNN(图卷积网络(GCN)、图注意力网络(GAT)、门控 图神经网络(GGNN),…)
○ GNN 是比 CNN 更高级的形式,GNN 广义上也包括 CNN
② 分子嵌入
○ Seq2seq、Mol2Vec
3.小分子数据库
⑴ 综合小分子数据库
① 提供约80万个小分子生物活性的载体形式数据
② 可直接用于构建机器学习模型的数据
③ 类别:化学性质、靶标信息、生物网络、细胞实验、临床数据
① 2亿条蛋白质结构数据数据库
② 比人类50年来通过实验确定的约20万种蛋白质结构多出1000倍
③ 自数据库创建以来仅用了一年时间就实现了
图。 1. AlphaFold2 数据库的大小
⑶ Ensembl : 转录组数据库
⑷ Uniprot : 蛋白质数据库
⑸ 人类蛋白质图谱 : 旨在绘制细胞、组织和器官中所有人类蛋白质图谱的公共访问资源
⑹ SGC(化学探针): 提供独特的探针集合以及相关数据、参考化合物和使用建议
⑺ 锌清洁铅集合(1,936,962 分子)
① 分子量范围为250至350道尔顿,多种可旋转 键不大于7,并且XlogP小于或等于3.5。
② 去除含有带电原子或除 C、N、S、O、F、Cl、Br、H 之外的原子或超过 8 个原子的循环的分子。
③ 通过药物化学过滤器(MCF)和 PAINS 过滤器过滤的分子。
⑻ 已知的 DDR1 激酶抑制剂
⑼ 常见激酶抑制剂(阳性)
⑽ 作用于非激酶靶标的分子(阴性)
① 2 ~ 4 : 来自 ChemBL 数据集
⑾ 要求保护的分子的专利数据
① www.globaldata.com : 包含截至 2017 年注册的约 17,000 种药品的信息
⑿ DDR1抑制剂的3D结构
4.小分子模拟
⑴ 对接模拟
① 使用 Maestro 套件 (https://www.schrodinger.com)
② 使用Prep模块对PDB结构3ZOS进行预处理并最小化能量
⑵ 毒性相关公共数据库> ① ToxCast : 大约 8500 种化合物。数据库包含约 700 种体外检测方法,通过高通量筛选考虑各种细胞系和生物活性
② Tox21 : 大约 8000 种化合物。数据库使用荧光素酶测定等方法提供化合物对 12 个主要细胞毒性目标的化学反应的定性测量
③ DSSTOX : 大约 740,000 种化合物。数据库将化学品的物理和化学特性与来自 Tox21 和 ToxCast 的生物实验数据相结合
④ ClinTox : 大约 1500 种化合物。将 FDA 批准的药物与因毒性问题而未能通过临床试验的药物进行比较
⑤ SIDER : 大约 1500 种化合物。数据库整合了已上市药物的副作用信息。使用报告的论文和实验数据根据频率和严重程度对药物副作用进行分类
⑥ ECOTOX : 大约 12,000 种化合物。数据库提供超过 13,000 种化学品的综合毒性实验数据。根据 EC50、IC50 和 NOEL 等标准评估毒性,并提供相关论文的链接
5.药物基因组数据库
⑴ NCBI dbSNP
⑵侏儒AD
⑶ 药用变量
⑷ 医药知识库
⑸ NCBI PubChem
⑹ 博德研究所CMAP
⑺ CTD
⑻ 药品银行
⑼ Stitch(化学品相互作用搜索工具)
⑽ ToppFun
⑾ 深度图
⑿ L1000CDS2
⒀ L1000FWD
⒁ GDSC(癌症药物敏感性基因组)
⒂ 中科协
⒃ ClinicalTrials.gov : 提供每种药物的临床试验进展信息
⒄ Cortellis:您可以查看每种药物的临床试验进度/状态。
⒅ 抗体协会:可以查看抗体的临床试验进度/状态。
输入: 2022.04.27 01:25