编辑 | 萝卜皮
基于深度学习的分子生成在许多领域都有广泛的应用,特别是药物发现。然而,目前的深度生成模型大多数是基于配体的,在分子生成过程中没有考虑化学知识,往往导致成功率相对较低。
四川大学的研究团队提出了一种基于结构的分子生成框架,称为 PocketFlow;该框架明确考虑了化学知识,可在蛋白质结合袋内生成新型配体分子,用于基于结构的从头药物设计。
在各种计算评估中,PocketFlow 表现出了最先进的性能,生成的分子具有 100% 化学有效且高度类似药物。
研究人员将PocketFlow应用于两个与表观遗传调控相关的新靶蛋白 HAT1 和 YTHDC1,并成功获得了湿实验室验证的生物活性化合物。活性化合物与靶蛋白的结合模式与分子对接预测的相近,并通过 X 射线晶体结构进一步证实。
该研究以「PocketFlow is a data-and-knowledge-driven structure-based molecular generative model」为题,于 2024 年 3 月 11 日发布在《Nature Machine Intelligence》。
创新药物发现是一个极其复杂且昂贵的过程,主要包括活性种子化合物(通常称为命中或先导化合物)的检索、命中/先导化合物优化、临床前评估和临床试验。
其中,命中/先导化合物的检索是第一步,也是关键的一步,因为它是启动新药开发项目的基础,并且可以极大地影响后续的药物开发步骤。
传统上,命中/先导化合物的发现是通过针对已知化合物库的高通量筛选来完成的。然而,现有化合物库的结构多样性有限,以及各个药物开发机构或公司的长期持续筛选,使得检索新的活性化合物和建立知识产权变得越来越困难。
DGM 面临的挑战
深度生成模型(DGM)在生成图像、文本和声音方面取得了巨大成功,为生成全新的种子化合物提供了一种有效的方法。虽然基于结构的 DGM 可以在蛋白质结合袋内生成新型配体分子,但仍然存在许多具有挑战性的问题:
(1)现有的数据集由已知的实验蛋白质-配体复合物结构组成,规模较小,不足以训练生成模型。
(2)目前,基于结构的 DGM 仍然是一种数据驱动的方法;越来越多的观点认为,将领域知识或规则融入深度学习模型可以有效解决数据缺乏、稳健性和可解释性差的问题。
(3)当前大多数深层分子生成模型在训练和生成过程中并未考虑化学键信息。相反,它们输出一组没有连接性的离散原子,然后通过第三方方法(例如 OpenBabel)将这些原子组装成分子。这种策略可能会产生许多不需要的子结构,从而导致化学合成困难或药物相似性低。
(4)虽然生成的分子已在理论上得到验证,但其生物活性和结合模式尚未通过湿实验室实验验证。
数据和化学知识双驱动的 DGM
为了应对这些挑战,四川大学的研究团队提出了一种由数据和化学知识双驱动的基于结构的分子生成框架,名为 PocketFlow。
在 PocketFlow 中,研究人员提出了一种基于最优向量的等变图神经网络、一种几何双瓶颈感知器(GDBP)来对蛋白质-配体复合物的几何结构进行建模。
为了捕获蛋白质和配体之间的相互作用信息,研究人员将蛋白质和配体的拓扑知识引入到模型中。还采用了三角自注意力机制和迁移学习等许多技术来增强模型学习几何约束和化学结构的能力。
图示:PocketFlow的架构和生成过程。(来源:论文)
特别值得一提的是,化学知识深深融入到分子生成过程中。在各种计算验证中,与基线相比,PocketFlow 显示出生成药物样分子的最佳能力。
PocketFlow 生成的分子在许多方面都比基线生成的分子更接近真实的药物样分子(CrossDocked2020),包括合成可及性、键长分布、键角分布和环结构。此外,与基线相比,PocketFlow 可以生成具有更好结合位点(口袋内部)和更高配体效率的分子。
图示:评估生成分子的几何形状。(来源:论文)
研究人员在 PocketFow 中使用的参数相对较少(大约21万个),这表明对计算资源的需求较少;参数较多的模型预计比参数较少的模型具有更好的性能,但需要更多的计算资源。
重要的是,PocketFlow 的有效性已通过湿实验室实验得到验证。该团队将 PocketFlow 应用于 HAT1 和 YTHDC1,它们被认为是治疗各种疾病,特别是治疗癌症相关的重要靶点。
首先使用 PocketFlow 在两种蛋白质的活性口袋内生成小分子。然后,从生成的分子中,研究人员分别为 HAT1 和 YTHDC1 选择并合成了两个和三个非常简单的分子;选择这些分子是因为它们除了具有良好的 QED 或 LE 值之外,还可以轻松快速地制备。获得了一种针对 HAT1 的活性化合物和两种针对 YTHDC1 的活性化合物。
PocketFlow 生成的活性化合物的结合位点和结合位姿与分子对接预测的非常相似。实验 X 射线共晶结构进一步证实所获得的活性化合物确实与指定的蛋白袋结合。
结语
总之,PocketFlow 是一个数据和知识双驱动的 DGM,在所有测试的 DGM 中显示出 SOTA 性能。同时在某些方面也存在改进的空间。例如,可以进一步提高生成的分子的结合亲和力,这可以通过引入强化学习来实现。其他需要改进的领域,包括考虑蛋白质的灵活性以及所生成分子的药代动力学特性和毒性。
论文链接:https://www.nature.com/articles/s42256-024-00808-8