精确预测相分离蛋白质，同济&中国科学院机器学习预测器PSPire

0 2000

编辑 | 萝卜皮

对蛋白质相分离（PS）的理解的迅速发展带来了丰富的生物信息学工具来预测相分离蛋白质（PSP）。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP，因此经常低估没有 IDR 的潜在 PSP。并且，PS 不仅受 IDR 控制，还受结构化模块结构域以及不直接反映在氨基酸序列的其他相互作用影响。

在最新的研究中，同济大学和中国科学院的研究团队开发了 PSPIre，一种机器学习预测器，它结合了残基级和结构级特征，用于精确预测 PSP。

与当前的 PSP 预测因子相比，PSPire 在识别没有 IDR 的 PSP 方面显示出显著的改进。这表明非 IDR、基于结构的特征在整个 PS 过程中多价相互作用中的关键作用。生物验证实验表明，PSPire 预测的 11 个候选 PSP 中，有 9 个可在细胞内形成冷凝物。

该研究以「Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions」为题，于 2024 年 3 月 8 日发布在《Nature Communications》。

精确预测相分离蛋白质，同济&中国科学院机器学习预测器PSPire

细胞内复杂生化反应的复杂调控一直是一个重要问题。膜结合的细胞器被磷脂双层包围，物理隔离其内部和外部环境，确保稳定的反应环境。

然而，无膜细胞器（MLO），例如核仁和应激颗粒，可以将蛋白质和核酸浓缩在特定的细胞位点，而不与膜结合。这些 MLO 的形成、组成控制和功能调节多年来一直难以捉摸。

2009 年，一项研究发现，秀丽隐杆线虫生殖细胞中的 P 颗粒可以形成液体状液滴，表明相分离 (PS) 可能是这些生物分子凝聚物形成的基础。随后的研究表明 PS 参与各种基本生物过程，如跨膜信号传导、DNA 修复、转录和 RNA 加工。生物分子凝聚体的异常形成或破坏可能导致神经退行性疾病、癌症和传染病。

相分离蛋白 (PSP) 的一个关键特征是它们能够形成多种弱的、瞬时的、非共价相互作用。相当多的 PSP 可以通过本质无序区域（IDR）之间的相互作用形成生物分子凝聚体，这些区域具有高度灵活的构象并呈现多种弱相互作用的元素。

在这里，研究人员将 PSP 分为两类：包含 IDR 的 (ID-PSP) 和不包含 IDR 的 (noID-PSP)。IDR 是根据 AlphaFold 预测的蛋白质结构的 pLDDT 分数确定的。

预测 PSP 的计算方法的发展对于促进整个蛋白质组的快速计算机筛选至关重要。但是，当前的 PSP 预测器严重偏向于预测 ID-PSP，导致预测 noID-PSP 的性能不佳。这种偏见凸显了在没有 IDR 的情况下准确识别 PSP 的普遍挑战。

由于 noID-PSP 的结构可以深入了解其功能背后的多价相互作用，研究人员假设整合蛋白质结构信息可以显著增强 noID-PSP 的预测。目前的 PSP 预测因子仅依赖于氨基酸序列，而不利用蛋白质结构信息，这可能是由于高质量蛋白质结构的可用性有限。

在最新的工作中，利用完整人类蛋白质组中蛋白质的高精度原子坐标的可用性，同济大学和中国科学院的研究团队训练了 XGBoost 分类器 PSPire，通过结合残基水平和结构水平特征来预测 PSP。

精确预测相分离蛋白质，同济&中国科学院机器学习预测器PSPire

图示：PSPire 的工作流程。（来源：论文）

该团队采用当前两个最好的预测器 PSAP 和 PhaSePred 用于预测 PSP 的 PS 相关特征，并分别计算 IDR 和非 IDR 上的这些特征。使用各种数据集的评估表明，该模型在将 noID-PSP 与非 PSP 进行分类方面显著优于当前的预测器

精确预测相分离蛋白质，同济&中国科学院机器学习预测器PSPire

图示：PSPire 与当前 PSP 预测器的性能基准测试。（来源：论文）

与目前主要依赖氨基酸特征的预测器不同，PSPire 集成了 3D 结构信息，在识别 noID-PSP 方面表现出卓越的性能。因此，PSPire 有效地识别了 PSP 候选者，并有助于研究人员了解这些蛋白质及其在冷凝物形成中的作用。

驱动相分离的多价相互作用不仅涉及 IDR 驱动的非特异性相互作用，还广泛涉及模块化域介导的特异性相互作用。然而，大多数现有的 PSP 预测因子对 IDR 含量高的蛋白质表现出明显的偏见，导致在预测 noID-PSP 时表现不佳。

为了解决这个问题，研究人员在 SSUP 的基础上引入了非 IDR 特性来补充 IDR 相关的特性。分析表明，这些 SSUP 相关特征有效地区分 PSP 和非 PSP，表明 SSUP 残基与结构域驱动蛋白的 PS 过程固有的多价性之间存在很强的相关性。

此外，该团队还计算了与贴纸相关的特征，可以有效区分 PSP 和非 PSP。因此，SSUP 残基，特别是那些构成贴纸的残基，提供了突变可能影响 PS 行为的位点，这对于进一步的实验验证很有价值，并且有可能帮助识别与 PS 相关的药物靶点。

精确预测相分离蛋白质，同济&中国科学院机器学习预测器PSPire

图示：PSPIre 预测的候选 PSP 在 HeLa 细胞和体外会发生相分离。（来源：论文）

除了生物实验之外，还可以利用分子动力学进一步探索 SSUP 中的关键残基，从而揭示驱动 PS 的潜在机制。利用这些重要特征，PSPire 报告了 SSUP 的残基位置，并将贴纸识别为输出。

该理论框架被称为「贴纸和间隔物模型（the stickers-and-spacers model）」，描述了各种相分离系统背后的分子语法。这些系统可以分为三种不同的类型：折叠蛋白质、本质无序蛋白质和线性多价蛋白质。

对于折叠蛋白质，贴纸被定义为蛋白质表面上的相互作用斑块，而间隔物由不参与相互作用的区域组成。在本质上无序的蛋白质中，贴纸可能包括单个氨基酸、短线性基序或两者的组合，其间散布有间隔基，间隔基是插入的非相互作用残基。

对于线性多价蛋白，贴纸包含多个折叠结构域，间隔物是连接这些结构域的柔性接头。对于明确的结合域，贴纸被表征为域表面上的结合位点，非结合表面残基充当额外的间隔物。从另一个角度来看，与贴纸、IDR 和 SSUP 相关的计算特征旨在准确捕捉这三种贴纸的不同属性。

关于贴纸相关的功能，PSPire 重点关注静电相互作用，而不是疏水相互作用，并考虑以下因素。静电相互作用的强度（范围为 2 至 15 kcal/mol）通常大于疏水相互作用的强度（范围为 0.5 至 3 kcal/mol）。

此外，ID-PSP 和 noID-PSP 中 SSUP 中疏水残基的比例显著低于非 PSP，而 ID-PSP 和 noID-PSP 中 SSUP 中带电残基的比例显著高于非 PSP。对于结构域驱动的相分离，静电相互作用可能比疏水相互作用更普遍。研究人员尝试通过加入疏水残基来修改贴纸识别方法。然而，疏水残基的掺入并没有提高 PSPIre 的预测能力。

论文链接：https://www.nature.com/articles/s41467-024-46445-y

# AI行业动态