港中大&之江实验室&华为&南医大提出逆向蛋白质折叠设计模型 ProRefiner

AI行业动态1年前 (2023)发布 ainavi

0 2800

编辑 | 紫罗

逆向蛋白质折叠（Inverse Protein Folding，IPF）是蛋白质设计的一项重要任务，其目的是设计与给定主链结构兼容的序列。尽管该任务的算法发展迅速，但现有方法在生成序列时往往依赖于位于局部邻域的噪声预测残基。

为了解决这个限制，来自香港中文大学、之江实验室、华为诺亚方舟实验室和南京医科大学的研究团队，提出了一种基于熵的残差选择方法来消除输入残差上下文中的噪声。此外，研究还引入了 ProRefiner——一种内存高效（memory-efficient）的全局图注意力模型，可以充分利用去噪上下文。

所提出的方法在不同设计 setting 的多个序列设计基准上实现了最先进的性能。此外，还证明了 ProRefiner 在重新设计转座子相关转座酶 B（TnpB）方面的适用性，提出的 20 个变体中有 6 个表现出改进的基因编辑活性。

该研究以《ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention》为题，于 2023 年 11 月 16 日发布在《Nature Communications》上。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠设计模型 ProRefiner

当前深度学习建模蛋白质结构方法

计算蛋白质设计，即设计具有特定结构或功能的蛋白质，它已经成为一种强大的工具，可以促进对进化过程尚未访问的序列或拓扑空间的探索，并发现性能更好的蛋白质。它在膜蛋白设计、酶设计等方面取得了成功。

作为计算蛋白质设计的子任务之一，逆向蛋白质折叠（IPF）的问题是找到可以折叠成给定三维（3D）结构的氨基酸序列的问题，这是非常重要的，因为承载特定功能通常需要获得特定的主链结构为前提。

如何建模和利用残基相互作用一直是各种 IPF 算法的焦点。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠设计模型 ProRefiner

图 1：利用残基间特征的不同方法。（来源：论文）

近年来，深度学习已成功应用于蛋白质结构建模和预测。已有研究通过深度学习来解决 IPF。早期的方法通常将蛋白质结构建模为独立残基序列或原子点云，并采用非自回归解码方案，如图 1a 所示。最近的一些研究使用邻近图来表示蛋白质结构，其中残基是节点，残基相互作用直接建模为 edge。通常，使用具有自回归解码方法的掩码编码器-解码器架构（如图 1b 所示）。

最近，ABACUS-R 中提出了类似的解码方案（如图 1c 所示）。该方法假设在解码中心残差时所有相邻残差类型都是已知的。从随机初始序列开始，它根据残差的邻域递归更新残差，直到收敛。然而，事实证明，对先前预测的依赖很容易出现误差累积问题。嘈杂的残基信息被引入上下文中并通过图结构传播，而如果可以使用并利用更多高质量的残基相互作用，则恢复目标残基将更容易且更准确。

蛋白质序列设计模型 ProRefiner

研究人员将上述问题总结为高质量残基相互作用的选择和利用。为了解决这些问题，研究人员提出了蛋白质序列设计模型 ProRefiner。该模型的任务是根据蛋白质结构进行类似 BERT 的序列修复。

ProRefiner 的模型架构是一堆内存高效的全局图注意力层，如图 2 所示。具体来说，注意力机制根据任意两个节点的特征计算它们之间的注意力权重。对于图来说，这需要存储和操作大小等于节点数量的方阵，这忽略了图结构的稀疏性，并将内存复杂度增加到节点数量的二次方，从而带来了可扩展性问题。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠设计模型 ProRefiner

图 2：ProRefiner 的模型架构。（来源：论文）

该研究的目标是设计一种针对图量身定制的基于注意力的模型，该模型（1）内存效率高，（2）保持依赖关系的全局视图，（3）完全合并 edge 特征。

双管齐下

实验表明，所提方法在处理整个序列设计和部分序列设计设置方面都是有效的。特别是，在转座子相关转座酶 B 的单点突变设计任务上验证了 ProRefiner，这是部分序列设计的一种特殊情况，其中只能修改一个残基。所提出的 ProRefiner 从模型推荐的 20 个突变体中成功识别出了 6 个基因编辑活性有所改善的变体。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠设计模型 ProRefiner

图 3：TnpB 单点突变设计的流程和结果。（来源：论文）

研究人员表示：「我们试图通过提出一种逆向蛋白质折叠的方法，朝着更好地建模和学习蛋白质结构内的体间相互作用迈出一步。」

该研究开发了一种双管齐下的方法，结合了残基选择技术和内存高效的全局图注意模型，它们共同作用以实现高质量残基相互作用的有效选择和利用。

实验表明，所提出的 ProRefiner 能够捕获有意义的残基间键，并在多个蛋白质设计基准上实现高序列恢复。还应用该模型重新设计了 TnpB，并成功发现了六个具有增强编辑活性的突变体。研究结果凸显了该方法在促进功能特性改进的蛋白质设计方面的潜力。

此外，该研究提出的内存高效图注意力模块提供了一种对全局依赖关系至关重要的图结构数据进行建模的有效方法。未来潜在的研究方向可能涉及将该模块应用于其他蛋白质相关任务以及其他生物分子的检测。

论文链接：https://www.nature.com/articles/s41467-023-43166-6

# AI行业动态