编辑 | X
在计算个性化医学领域,药物反应预测(DRP)是一个关键问题。但是,现有的研究通常将药物描述为字符串,这种表示与分子的自然描述不符。此外,忽略了基因通路(pathway)特异性组合含义。
近日,来自河南科技大学的研究人员提出了基于药物图和基因通路的药物反应预测方法(GPDRP),这是一种新的多模态深度学习模型,用于预测基于药物分子图和基因途径活性的药物反应。
在 GPDRP 中,药物由分子图表示,而细胞系则以基因途径活性评分描述。该模型使用具有图 Transformer 和深度神经网络的图神经网络(GNN)分别学习这两类数据。随后通过完全连接的层进行预测。
研究结果表明,基于图 Transformer 的模型可提供出色的性能。研究人员将 GPDRP 应用于数百个癌细胞系的大量 RNA 序列数据上,并且表现优于一些最近发表的模型。此外,GPDRP 通过对未知药物细胞系对和异种移植物的预测证明了其普遍性和适用性。这强调了通过结合基因途径实现的可解释性。
该研究以「GPDRP: a multimodal framework for drug response prediction with graph transformer」为题,于 2023 年 12 月 17 日发布在《BMC Bioinformatics》上。
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-023-05618-0
药物反应预测的进展及挑战
药物反应预测(Drug response prediction,DRP)在癌症治疗中至关重要,并已成为个性化医学研究的重要课题。准确预测治疗反应有助于为患者设计更有效的治疗计划,并为新型疾病抑制药物的开发提供有价值的见解。
随着高通量基因组学技术的快速发展,大规模的药物基因组学数据库逐渐积累。基于这些丰富的数据资源,众多研究人员建立了各种 DRP 模型来预测抗癌药物的反应。
尽管 DRP 研究取得了重大进展,但仍有一些问题值得考虑。例如,大多数研究将药物表示为字符串,这是一种不自然的分子表示方式,可能会导致结构信息的丢失。此外,基因的特定通路组合含义(或基因集)被忽略,基因表达水平被视为自变量,这可能过度强调机器学习技术。
GPDRP:一种新颖的多模态深度学习架构
为了解决这些问题,研究人员提出了 GPDRP,一种新颖的多模态深度学习架构,可以通过将药物建模为分子图来预测细胞系的药物反应。此外,Graph Transformer 与图同构网络(Graph Isomorphism Network,GIN)相结合,提高了更精确的 DRP 的能力。
GPDRP 的主要贡献包括:
1、将药物分子图与基因通路活性评分相结合,利用两种类型数据的优势来增强其模型的预测能力。
2、GPDRP 是一种新颖的 DRP 多模态框架,它利用图卷积网络与图 Transformer 和深度神经网络相结合。GPDRP 的性能通过 CCLE/GDSC 数据集进行了演示,它的性能优于最近发布的两个模型 Precily(使用 SMILES 字符串表示药物分子) 和 GraTransDRP(通过 one-hot encoding 编码细胞系的基因组和表观基因组特征)。
3、GPDRP 展示了预测未知药物细胞系对的潜力。利用该模型对 GDSC 中缺失的配对进行了预测。
4、GPDRP 具有良好的适用性。应用它来预测 LNCaP 异种移植数据集,并根据基因活性通路评分提供解释。
预测未知药物细胞系对的反应
为了评估 GPDRP 的预测准确性,研究人员使用 CCLE/GDSC 数据集训练模型,并采用与 Precily 中相同的数据分割策略。测试结果显示,最佳模型的 PCC 值为 0.8833,RMSE 值为 0.0321。
然后将 GPDRP 与一些最近发布的模型进行了比较。显然,对于几乎所有图卷积网络,GPDRP 都优于 Precily 和 GraTransDRP。在三种 GNN 模型中,GIN 模型表现最好,PCC 为 0.8827。因此,研究将 GIN 与 Graph Transformer 结合起来,得到最佳的 PCC 为 0.8833,最佳的 RMSE 为 0.0321。
图 1:性能比较。(来源:论文)
接着,研究人员使用最佳模型 GPDRP_GIN_TRANSFORMER 来预测处理后的 15,094 个缺乏响应值的药物细胞系对的响应。
图 2:未知响应对的预测 LN IC50 值的箱线图。(来源:论文)
GPDRP 在预测未知药物细胞系对的药物反应方面表现出了卓越的性能,从而证实了 GPDRP 的准确性和实用性。这使我们能够更好地了解药物对特定细胞系的影响,为药物开发和制定个性化治疗策略提供强有力的支持。
为了预测药物反应,研究人员使用了在 CCLE/GDSC 数据集上训练的 GPDRP_GIN_TRANSFORMER 模型。通过将该模型应用于 54 个样本,获得了 173 种药物对 LNCaP 异种移植肿瘤样本的预测敏感性,如图 3 所示。
图 3:LNCaP 异种移植的预测和分析。(来源:论文)
54 个样本分为三个主要 clusters。将预测值最高的样本总结为 Cluster 1。该 cluster 表现出最强的耐药性,表明药物敏感性最低。相反,将预测值最低的样本总结为 Cluster 3,表明对 173 种药物的敏感性最高,并且主要由经过 ENZ 处理的肿瘤样本组成(总共 12 个样本,其中 7 个 ENZS 和 3 个 ENZR)。值得注意的是,ENZR 样本分布在所有三个 cluster 中,表明治疗结果存在异质性,并暗示 ENZ 耐药可能涉及不同的潜在机制,可能涉及与肿瘤微环境中基质成分的相互作用。
图 4:GPDRP 的预测分析工作流程图。(来源:论文)
局限性及未来研究
GPDRP 的局限性之一是模型的可解释性。此外,研究仅关注细胞系,当涉及到基于药物化合物的数据分割时,该模型未能达到预期结果。这可能归因于药物化合物的巨大化学空间。
未来,研究人员将将重点研究模型的可解释性,更加关注基于药物的研究,以增强模型的可解释性,提高其预测药物反应的有效性。此外,RGCN 和 RGAT 可以增强模型的预测能力,之后将探索它们的使用以实现更好的预测性能。