Korean, Edit

有机化学 Python 函数集合(化学信息学;结构生物信息学)

推荐帖子:【有机化学】【有机化学索引】(https://jb243.github.io/pages/1483)、【Python】【Python实用函数大全】(https://jb243.github.io/pages/1892) 


1. 命名法

2. 绘图

3. 氨基酸

4. 光谱

5. 反应机制


a. 生物信息学



1. 命名法 

SMILES(简化分子输入行输入系统):短的 ASCII 字符串表示形式。

① 双键用“=”表示,三键用“#”表示。

② 对于环状化合物,分配诸如1、2、…等数字表示线性分子的末端连接形成环。

○ 示例:CN1C=NC2=C1C(=O)N(C(=O)N2C)C

③“C”表示一般碳原子,“c”表示芳香族碳原子。

○ C1CCCCC1: 环己烷

○ c1ccccc1: 苯

④ 可以使用括号来表示更复杂的情况。

○ 也可表示电荷符号,如[N+]。

⑤@符号可用于表示分子中的立构中心。

○ 示例:CC@HC@HC

⑥/和\符号可用于表示E/Z异构体。

○ 示例:CCC/C(=C/C(=O)OCC)/C(=O)OCC

⑵ 将有机化合物转换为SMILES的代码


受保护_0


⑶ SMILES、IUPAC互转码:采用变压器模型。


受保护_1


① 即使 IUPAC 输入不完全准确,SMILES 代码转换也可能有效

⑷ 如何根据任意化学式找出 IUPAC 命名法

步骤 1. 多次尝试 SMILES-to-drawing 函数,找到代表给定化合物的 SMILES 代码。

步骤2. 执行SMILES-to-IUPAC函数以获得最终命名法。


<iframe src =“https://www.youtube.com/embed/_qhoh9Mi8Ig”宽度=“852”高度=“480”frameborder =“0”allowfullscreen =“”></ iframe>


⑸ 从SMILES获取分子量的代码


受保护_2


⑹ 从SMILES判断芳香度的代码


受保护_3


⑺ 从SMILES计算偶极矩的代码


受保护_4


⑻ 从SMILES获取沸点(bp)、熔点(mp)和临界温度的函数


受保护_5


① 它采用基于搜索的方法运行,并非所有化合物都是目标化合物。

② 正在引入各种机器学习模型来改进这一点。

⑼ 从 PubChem 抓取 pKa 值的函数


受保护_6


⑽ 根据SMILES等预测生物活性的模型

数据库查询


受保护_7


基础模型

ChemBERTa:基于RoBERTa。已提交到 NeurIPS 2020。性能低于 D-MPNN。

Smile-to-Bert:根据SMILES预测ADMET(吸收、分布、代谢、排泄、毒性)。性能很差。

ADMET-AI:使用 Chemprop-RDKit。预测 ADMET(吸收、分布、代谢、排泄、毒性)。在速度、准确性、许可、易用性和 DrugBank 集成方面提供显着优势。» ○ 分子量、logP、氢键受体、氢键供体、Lipinski、QED、立体中心、tpsa、AMES、BBB_Martins、生物利用度_Ma、CYP1A2_Veith、CYP2C19_Veith、CYP2C9_Substrate_CarbonMangels、CYP2C9_Veith、 CYP2D6_Substrate_CarbonMangels、CYP2D6_Veith、CYP3A4_Substrate_CarbonMangels、CYP3A4_Veith、致癌物_Lagunin、ClinTox、DILI、HIA_Hou、NR-AR-LBD、NR-AR、NR-AhR、NR-芳香酶、NR-ER-LBD、 NR-ER、NR-PPAR-gamma、PAMPA_NCATS、Pgp_Broccatelli、SR-ARE、SR-ATAD5、SR-HSE、SR-MMP、SR-p53、Skin_Reaction、hERG、Caco2_Wang、Clearance_Hepatativity_AZ、Clearance_Microsome_AZ、Half_Life_Obach、HydrationFreeEnergy_FreeSolv、 LD50_Zhu、亲脂性_阿斯利康、PPBR_AZ、溶解度_AqSolDB、VDss_Lombardo、molecular_weight_drugbank_approved_percentile、logP_drugbank_approved_percentile、Hydrogen_bond_acceptors_drugbank_approved_percentile、Hydrogen_bond_donors_drugbank_approved_percentile、 Lipinski_drugbank_approved_percentile、QED_drugbank_approved_percentile、stereo_centers_drugbank_approved_percentile、tpsa_drugbank_approved_percentile、AMES_drugbank_approved_percentile、BBB_Martins_drugbank_approved_percentile、生物利用度_Ma_drugbank_approved_percentile、 CYP1A2_Veith_drugbank_approved_percentile、CYP2C19_Veith_drugbank_approved_percentile、CYP2C9_Substrate_CarbonMangels_drugbank_approved_percentile、CYP2C9_Veith_drugbank_approved_percentile、 CYP2D6_Substrate_CarbonMangels_drugbank_approved_percentile、CYP2D6_Veith_drugbank_approved_percentile、CYP3A4_Substrate_CarbonMangels_drugbank_approved_percentile、CYP3A4_Veith_drugbank_approved_percentile、 Carcinogens_Lagunin_drugbank_approved_percentile、ClinTox_drugbank_approved_percentile、DILI_drugbank_approved_percentile、HIA_Hou_drugbank_approved_percentile、NR-AR-LBD_drugbank_approved_percentile、NR-AR_drugbank_approved_percentile、 NR-AhR_drugbank_approved_percentile、NR-Aromatase_drugbank_approved_percentile、NR-ER-LBD_drugbank_approved_percentile、NR-ER_drugbank_approved_percentile、NR-PPAR-gamma_drugbank_approved_percentile、PAMPA_NCATS_drugbank_approved_percentile、 Pgp_Broccatelli_drugbank_approved_percentile、SR-ARE_drugbank_approved_percentile、SR-ATAD5_drugbank_approved_percentile、SR-HSE_drugbank_approved_percentile、SR-MMP_drugbank_approved_percentile、SR-p53_drugbank_approved_percentile、 Skin_Reaction_drugbank_approved_percentile、hERG_drugbank_approved_percentile、Caco2_Wang_drugbank_approved_percentile、清除_肝细胞_AZ_drugbank_approved_percentile、清除_Microsome_AZ_drugbank_approved_percentile、Half_Life_Obach_drugbank_approved_percentile、 HydrationFreeEnergy_FreeSolv_drugbank_approved_percentile、LD50_Zhu_drugbank_approved_percentile、亲脂性_AstraZeneca_drugbank_approved_percentile、PPBR_AZ_drugbank_approved_percentile、Solubility_AqSolDB_drugbank_approved_percentile、 VDss_Lombardo_drugbank_approved_percentile

⑾ 从 PubChem 生成 IUPAC 名称的函数


受保护_8


应用1. 创建IUPAC命名法 示例

○ 从 PubChem 爬取 IUPAC 命名法 → IUPAC-to-SMILES → SMILES-to-image

○ 示例生成算法包括验证 SMILES-to-IUPAC 是否与原始 IUPAC 匹配的附加步骤,这会导致以下附带影响:

效果 1. 排除不适当的 IUPAC 命名法

效果2. 通过消除计算机难以理解的术语,调整了术语示例的复杂性。

⑿ 从 PubChem 生成带有立体化学的 SMILES 名称的函数


受保护_9


应用1. 创建RS命名法示例» ○ PubChem 中的 Crawling SMILES 命名法 → 规范 SMILES 到立体化学 SMILES → SMILES 到图像

应用 2. 上面的代码产生了一个特别有利于 R 配置的结构。

○ 实际上,在检查 62 个立体异构体示例 时,有 40 个实例偏向 R 构型,22 个实例偏向 S 构型,表明测试中偏爱 R 构型。

○ R异构体和S异构体的理论比例应该是相同的,因此怀疑可能存在认知偏差。



2.绘图 

⑴ 绘制有机化合物的分子式(例如过氧乙酸) 


受保护_10


图片


⑵ 绘制有机化合物的电子密度图(ver.1)(例如,过氧乙酸)


受保护_11


图片


⑶ 绘制有机化合物的电子密度图(第 2 版)(例如,过氧乙酸)


受保护_12


图片


⑷ 绘制有机化合物的三维分子结构。


受保护_13


评论1: 在甲醇中,两个甲基处于交错取向,以最大限度地减少空间位阻,而在乙醇中,由于分子内氢键,情况并非如此。


스크린샷 2024-06-11 오후 12 34 59


评论2: 该结构在以下共轭环化合物中也得到了很好的实现。


스크린샷 2024-06-11 오후 12 34 31


③ 这就是化学信息学的魅力,仅仅通过机器学习模型就可以创造出新的知识。

⑸ 使用R/S命名法显示有机化合物的二维分子结构


受保护_14


图片


⑹ 使用R/S命名法显示有机化合物的3D分子结构


受保护_15


스크린샷 2024-06-11 韩国 12 35 18


⑺ 根据碳原子数画出烷烃所有结构异构体的代码


受保护_16


图片


化学式 结构异构体数量  
  C3H8 1  
  C4H10 2  
  C5H12 3  
  C6H14 5  
  C7H16 9  
  C8H18 18 18
  C9H20 35 35
  C10H22 75 75
  C11H24 159 159
  C12H26 355 355
  C13H28 802 802
  C14H30 1,858 1,858
  C15H32 4,347 4,347
  C16H34 10,359 10,359
  C17H36 24,894 24,894
  C18H38 60,523 60,523
  C19H40 148,284  
  C20H42 366,319 366,319
  C30H62 4,111,846,763 4,111,846,763
  C40H82 62,481,801,147,341 62,481,801,147,341


表 1. 基于碳数的烷烃结构异构体数量


①【烷烃的结构异构体及递推关系】(https://jb243.github.io/pages/2412)

⑻ 使用树数据结构绘制所有烷烃取代基的代码(从 n_carbons = 6 开始存在重复项)


受保护_17


n_carbons = 3:共2套


图片


n_carbons = 4:共4套


图片


n_carbons = 5:共8套


图片


n_carbons = 6:共17套


图片



3。 氨基酸

⑴ 将序列转换为氨基酸序列的函数


受保护_18


⑵ 将基因名称转换为氨基酸序列的功能


受保护_19


⑶ 使用AlphaFold2从氨基酸序列生成有关氨基酸结构的PDB文件的功能

① 安装AlphaFold2


受保护_20


② 运行 AlphaFold 2 单体


受保护_21


③ 运行 AlphaFold 2 Mumtimer


受保护_22


生物聚合物库

⑷ 使用 SMILES 嵌入函数嵌入氨基酸并以 2D 形式可视化它们


受保护_23


스크린샷 2026-01-13 오후 4 36 52



4。 光谱

⑴ 概述

① 根据化学式预测MS、IR和NMR谱图或根据MS、IR和NMR数据预测化学式的研究正在积极进行。

② 随着深度学习技术的进步,这项研究正在取得重大进展。

○ 示例:NMR-TS



**5。反应机理

⑴ 最近,包括Chemical.AI在内的多家人工智能公司宣布了能够重建有机化学反应的人工智能系统。


image



输入:2023.11.30 02:40

results matching ""

    No results matching ""