Nature子刊 | KAUST团队训练大语言模型，进行作为近似语义蕴涵的蛋白质功能预测

0 400

编辑 | 萝卜皮

基因本体论（Gene Ontology，GO）是一种公理理论，目前拥有超过 100,000 条公理，描述了三个子本体中蛋白质的分子功能、生物过程和细胞位置。

使用 GO 预测蛋白质的功能需要模型拥有学习和推理能力。科学家已经开发出多种方法来自动预测蛋白质功能，但有效利用 GO 中的所有公理进行知识增强学习仍然是一个挑战。

阿卜杜拉国王科技大学（King Abdullah University of Science & Technology，KAUST）的研究人员开发了 DeepGO-SE，这是一种使用预训练的大型语言模型根据蛋白质序列预测 GO 功能的方法。

DeepGO-SE 可生成多个 GO 近似模型，然后神经网络预测这些近似模型中有关蛋白质功能的陈述的真值。该团队汇总了多个模型的真值，以便 DeepGO-SE 在预测蛋白质功能时近似语义蕴涵。

使用多个基准测试表明，与最先进的方法相比，该方法有效地利用了 GO 中的背景知识并改进了蛋白质功能预测。

该研究以「Protein function prediction as approximate semantic entailment」为题，于 2024 年 2 月 14 日发布在《Nature Machine Intelligence》。

Nature子刊 | KAUST团队训练大语言模型，进行作为近似语义蕴涵的蛋白质功能预测

论文链接：https://www.nature.com/articles/s42256-024-00795-w

蛋白质功能预测仍有挑战

蛋白质功能预测是生物学和生物信息学的关键挑战，对于识别药物靶点、了解疾病机制和改善生物技术在工业中的应用等任务是必要的。虽然预测蛋白质结构的准确性在近年来有所提高，但由于已知功能数量较少且其复杂性和相互作用，预测蛋白质功能仍然具有挑战性。

蛋白质的功能是使用基因本体论（Gene Ontology，GO）来描述的，包括描述单个蛋白质的分子功能（MFO）、蛋白质可贡献的生物过程（BPO）以及蛋白质活跃的细胞成分 (CCO)。这些注释通常传播到同源蛋白，因此，UniProtKB/Swiss-Prot 数据库包含针对数千种生物体和超过 550,000 个蛋白质手动整理的 GO 注释。

最新的蛋白质功能预测方法往往依赖于不同的信息来源，例如序列、相互作用、蛋白质三级结构、文献、共表达、系统发育分析或 GO 中提供的信息。这类方法可以使用序列域注释，直接应用深度卷积神经网络（CNN）或语言模型（例如长短期记忆神经网络和 Transformer），或使用预训练的蛋白质语言模型来表示氨基酸序列。这类模型还可以通过知识图嵌入、使用 k 最近邻的方法和图卷积神经网络来整合蛋白质-蛋白质相互作用。

然而，许多功能预测方法依赖序列相似性来预测功能。虽然这种方法在应用于具有明确功能且相似的蛋白质时有效，但对于与已知功能域具有很少或几乎没有序列相似性的蛋白质来说，它可能不太可靠。分子功能很大程度上源于结构，具有相似结构的蛋白质可能具有不同的序列。重要的是，具有相似序列的蛋白质可以具有不同的功能，具体取决于它们的活性位点和它们所属的生物体。

另一种思路

本体论是很少用于预测蛋白质功能的另一个信息来源。本体不仅仅是类的集合；相反，本体论是一种形式理论，它使用基于逻辑的语言指定类的预期含义的某些方面。某些机器学习模型可以使用 GO 公理中包含的背景知识，通过知识增强的机器学习来改进预测。通过将形式公理纳入机器学习模型中，可以在学习或预测过程中利用先验知识，对参数搜索空间施加约束，从而提高学习过程的准确性和效率，并最终做出更好的预测。

以此为理论基础，KAUST 的研究团队开发了 DeepGO-SE，一种蛋白质功能预测方法，该方法使用预训练的大型蛋白质语言模型结合神经符号模型来预测蛋白质序列的功能，该神经符号模型将功能预测作为近似语义蕴涵进行。

Nature子刊 | KAUST团队训练大语言模型，进行作为近似语义蕴涵的蛋白质功能预测

图示：DeepGO-SE 模型概述。（来源：论文）

研究人员使用 ESM2 蛋白质语言模型来生成单个蛋白质的表示。与该团队之前的研发的 DeepGOZero 类似，研究人员将 ESM2 嵌入投影到由 GO 中的公理生成的嵌入空间（ELEmbeddings）中。

Nature子刊 | KAUST团队训练大语言模型，进行作为近似语义蕴涵的蛋白质功能预测

论文链接：https://doi.org/10.1093/bioinformatics/btac256

ELEmbeddings 基于几何形状和几何关系对本体公理进行编码，并对应于 Σ 代数或「世界模型」，研究人员可以在其中确定陈述是真是假。与 DeepGOZero 相比，研究人员使用这些世界模型来执行「语义蕴涵」：当且仅当 Φ 在每个世界模型中都为真，并且 T 中的所有语句都为真时，语句 Φ 才由理论 T (T⊧Φ) 蕴涵。

虽然一般来说，对于理论 T 或陈述 Φ 有无限多个这样的世界模型，但是该方法学习多个但有限个这样的模型，并生成函数的预测作为「近似」语义蕴涵，研究人员在每个生成的世界模型中测试真实性。使用这种形式的近似语义蕴涵，研究人员证明了 GO 扩展版本中的公理增强了分子功能的预测。

此外，该团队通过以蛋白质-蛋白质相互作用网络的形式整合有关生物体蛋白质组和相互作用组的信息，改进了对复杂生物过程和细胞成分的预测。结果表明，与分子功能不同，生物过程和细胞成分注释的预测可以从蛋白质-蛋白质相互作用中受益匪浅。

对于生物过程，研究人员发现整合预测的分子功能和相互作用可以显着提高预测的性能；这一发现表明，生物过程注释的预测不需要特定蛋白质的知识，而只需要它们的分子功能，从而大大扩展了该方法的通用性。

该团队在带有实验注释的数据集上训练和评估他们的模型，该数据集根据序列相似性进行分割，从而确保使用与训练集不共享相似蛋白质的测试集来报告评估。研究人员发现依赖序列相似性的方法在这种情况下表现不佳，而 DeepGO-SE 显著提高了 GO 所有子本体的预测性能。例如，DeepGOPlus 使用序列相似性和卷积神经网络 (CNN) 来预测函数，但只能依赖 CNN，并且在此测试集上性能下降。

结语

研究人员在论文里给出了三个主要结论：知识增强的机器学习方法现在能够改进不依赖背景知识的方法；GO 函数预测最好使用单独的分层预测方法来制定；基于 ESM2 的功能预测模型现在可以推广到很大程度上不可见的蛋白质。

尽管 DeepGO-SE 可以仅使用蛋白质序列来预测生物过程和细胞成分，但当该序列与 PPI 结合时，可以实现最佳性能。然而，许多新型蛋白质不具有已知的相互作用，这限制了组合模型在它们上的应用。因此，需要能够基于唯一可用序列准确预测新型蛋白质的 PPI 的方法。未来，该团队计划将基于序列和结构的 PPI 预测器纳入模型中。

此外，DeepGO-SE 能够执行零样本预测，与 DeepGOZero 类似，并且比其他依赖多个序列比对的方法更快地获得预测。这是因为 DeepGO-SE 仅依赖于 ESM2 嵌入，而 ESM2 嵌入的计算速度更快。总体而言，DeepGO-SE 模型比现有的蛋白质功能预测方法有了显著改进，提供了更准确、更全面、更高效的方法。

# AI行业动态