准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

0 2400

编辑 | 紫罗

可合成的分子化学空间是巨大的。要想有效地驾驭这一领域，需要基于计算的筛选技术，如深度学习技术，以快速跟踪感兴趣的化合物发现。

然而，使用算法进行化学发现需要将分子结构转换为计算机可用的数字表示形式，并开发基于这些表示形式的算法来生成新的分子结构。

近日，来自英国格拉斯哥大学（University of Glasgow）的研究人员，提出了一种基于电子密度训练的机器学习模型，用于生产主客体 binders。这些以简化分子线性输入规范 (SMILES) 格式读出，准确率 >98%，从而能够在二维上对分子进行完整的表征。

机器学习模型使用变分自编码器生成主客体系统的电子密度和静电势的三维表示，然后利用这些表示通过梯度下降来优化客体的生成。最后，使用 Transformer 将客体转换为 SMILES。

模型成功地应用于已建立的分子主体系统，葫芦脲和金属有机笼，结果发现了 9 个先前验证的 CB[6] 客体和 7 个未报告的客体，并发现了 4 个未报告的准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊客体。

该研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》为题，于 2024 年 3 月 8 日发表在《Nature Computational Science》上。

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

论文链接：https://www.nature.com/articles/s43588-024-00602-x

当前主客体化学研究费力且昂贵

字符串，例如 SMILES，分子以「单词」表示，例如「C1C=C1」（环丙烯），是最广泛的分子数字表示形式之一。使用最先进的自然语言处理，这些表示与 AI 技术直接兼容，例如循环神经网络或 Transformer 模型。

将分子表示为 3D 体积（volume）的优点是可以应用最新的 AI 技术，例如卷积神经网络。到目前为止，3D 体积作为分子描述符的大多数应用都集中在预测特性或从头药物设计上。然而，由于缺乏有效的方法将这些体积与清晰的分子结构相关联，目前使用 3D 体积作为分子描述符受到阻碍。

在过去的 40 年里，由于分子 containers（中空有机分子或中空超分子结构）倾向于通过将分子与空腔中的体相隔离来改变分子的化学和物理性质，因此主客体系统得到了越来越多的研究。主客体系统具有广泛的应用，从催化到生物医学工程、材料科学和反应分子的稳定。

葫芦脲（CB[n]）和金属有机笼是最成功的分子 containers 设计之一。尽管主客体化学已经取得了显著的成就，但现有系统中未报道的客体的发现或新的主客体系统的优化，仍然是一个费力且昂贵的迭代过程，阻碍了科学进步的步伐。

一种基于电子密度训练的机器学习模型

在此，研究证明，将主体分子表示为 3D 体积（即，用静电势修饰的电子密度）可以通过计算机辅助发现该主体的客体，而无需了解主体的化学结构之外的主客体系统。

在此过程中，研究人员建立了一个 Transformer 模型，可以通过训练将 3D 体积分子描述符有效地转换为 SMILES 表示，从而生成专业化学家可用的分子结构。

研究还发现，通过用静电势数据修饰分子的电子密度，可以将分子有效地表示为 3D 体积，并且这两个特征足以通过使用自回归采样方案优化 3D 描述符之间的体积形状和电荷相互作用来发现主体的客体分子。

图示：使用 Transformer 模型将电子密度转换为 SMILES 表示，然后通过梯度下降优化目标主体的客体。（来源：论文）

Transformer 模型完美地预测了其 SMILES 表示，准确度为 98.125%。单个 token 的预测准确率为 99.114%。Transformer 的解码器也可以被隔离为纯生成模型，如 GPT。

工作流程概述

计算机辅助发现葫芦脲 CB[6] 和金属有机笼准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊的实验验证客体需要一个双层工作流程。首先，设计了一个计算机工作流程来为这两个主体生成潜在客体分子的虚拟库。然后建立了体外工作流程，其中包括由化学专家从这些虚拟库中选择最有希望的客体候选物进行实验测试。

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

图示：通过电子密度体积表示发现新型客体分子。（来源：论文）

CB[6] 和准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊客体分子的计算机生成是通过上图所示的工作流程实现的，该工作流程包括以下步骤:

（1）3D 电子密度体积训练集源自公开的 QM9 数据集中的分子。然后，通过使用变分自编码器（VAE）对这个 3D 电子密度体积训练集进行建模，创建了一个

「分子生成器」，从而允许生成超出 QM9 数据集派生的 3D 电子密度体积。该 VAE 分子生成器的工作原理是将 3D 电子密度体积编码到一维 (1D) 潜在空间中，然后通过从该 1D 潜在空间进行解码来生成与分子相对应的 3D 电子密度体积。有趣的是，这种方法只能产生化学上合理的分子。

（2）VAE 分子生成器和梯度下降优化算法用于为给定的主体分子生成客体分子库（以 3D 电子密度体积的形式）。客体分子是通过最小化主体和客体电子密度之间的重叠，同时优化它们的静电相互作用而产生的。

（3）由于人类操作员将 3D 电子密度体积转换为化学可解释的结构可能具有挑战性，因此训练了 Transformer 模型将这些体积转换为 SMILES 表示，以一种更容易被专业化学家理解的格式捕获描述分子所需的所有必要信息。在通过计算机模拟生成 CB[6] 和准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊的潜在客体分子后，建立了体外工作流程来对最有希望的候选分子进行实验测试。

下面描述了所使用的实验过程。

（1）由于其计算机工作流程生成的 CB[6] 和准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊的客体由化学专家进行分类以进行实验测试。有希望进行测试的客体是根据其与 CB[6] 或的已知客体的结构相似性、专业化学家的直觉及其商业可用性来选择的。

（2）采用直接准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊滴定法测定 CB[6] 或的亲和力。值得注意的是，在计算机中生成的客体包含先前已知与主体（或密切相关）结合的分子和无视专家直觉的分子的混合物。

两个常见主客体系统的实验验证

研究人员通过实验验证了其工作流程，为两个两个常见的主客体系统：葫芦脲（CB[n]）和金属有机笼，成了文献验证和未报告的客体。

算法为 CB[6] 生成了 9 个先前已知的客体。还确定了 CB[6] 的 7 个潜在新客体，化学专家认为值得进行实验测试。CB[6] 对这些新客体的亲和力通过在 HCO2H/H2O 1:1v/v 中直接准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊滴定来评估。

在所有 7 种情况下，都观察到主客体系统的一组信号，表明该系统在 NMR 时间尺度上进行快速交换。络合后，客体分子的脂肪链共振向上场移动，表明它们被封装在 CB[6] 腔内。发现准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊与 CB[6] 的缔合常数遵循先前建立的趋势，范围从 13.5 M^−1 到 5,470 M^−1。

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

图示：CB[6] 的优化和先前已知的客体以及准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

的优化客体。（来源：论文）

对于准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊，优化算法仅生成未知的客体分子，四种潜在的未报告客体与 [Pd214](BArF)4 之间的结合强度通过 CD2Cl2 中的直接滴定进行测试。在所有四种情况中，客体对 [Pd214](BArF)4 的亲和力与先前报道的 CD2Cl2 中「小型中性客体」的亲和力较低范围一致（Ka 从 44 M^-1 到 529 M^−1）。

虽然研究重点是使用 SMILES 表示法来表示分子，但也测试了其他类似的格式，例如自引用嵌入字符串 (SELFIES)。

尽管 QM9 数据集包含大小完美的分子，可以成为 CB[6] 等主体的客体，但该研究遇到的一个限制是金属有机笼准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊具有更大的空腔，需要更大的客体分子。在未来的研究中，将使用包含更大分子的数据集，例如 GDB-17 数据集。

之后，「我们的目标是将新配体的选择嵌入到生成过程中，在自动化合成平台（例如 Chemputer 机器人）上自主合成分子，关闭优化和测试之间的循环，创建一个网络-物理闭环系统。」

# AI行业动态