以 GPT-4 为代表的大语言模型风靡全球,展现了人工智能(AI)理解和生成人类自然语言的惊人能力,也让人们对大模型所能带来的下一个范式变革充满期待。
科学和产业领域是否也能打造基础大模型,为高价值的行业任务带来新的希望?这已经成为人工智能领域的投资热点。
十一刚过,高举 All in AI 大旗的全球制药巨头赛诺菲就为市场提供了一个有力的答案:赛诺菲宣布与 BioMap 百图生科达成大型战略合作,双方将基于百图生科的生命科学大模型(Life Science AI Foundation Model),共同开发用于生物治疗药物发现的前沿模型。
作为协议的一部分,BioMap 将获得 1000 万美元的预付款,和多项近期的模型开发付款、研发里程碑付款、销售里程碑付款等回报,总交易金额超过 10 亿美元。
今年 6 月,赛诺菲宣布全公司在数字化转型中迈出下一步,将 “All in” 人工智能和数据科学,为患者加速取得突破性成就。赛诺菲首席执行官 Paul Hudson 当时宣称,赛诺菲的目标是成为第一家由人工智能大规模驱动的制药公司。
而根据本次双方公布的战略合作内容看,赛诺菲确实在拥抱人工智能上走在了前面,在此前多次达成具体 AI 任务的合作交易之后,又率先进入大模型这样的 AI 技术前沿 ,双方旨在利用百图生科定制的 AI Foundation Model 和世界领先的人工智能专业知识,以及赛诺菲的专有数据、蛋白质工程创新和深厚的生物制剂开发经验,创建领先的蛋白质大语言模型和人工智能任务模型,从而优化突破性生物治疗药物的发现和开发过程。
与以往跨国药企与 BioTech 或 AI 公司之间联合开发某类特定靶点或药物不同,此次赛诺菲与百图生科的战略合作,是生命科学行业首次基于 Foundation Model 的商业合作,并提出以模型开发而不是药物研发进展作为里程碑,这也为 MaaS(Model as a Service)这种大模型时代的独特商业模式带来了新的案例。硅谷著名投资人查马斯(Chamath)不久前曾表示,随着大模型的功能越来越强、成本越来越高,其平台属性会更加突出,AI 领域的 MaaS 商业模式将成为趋势。
Foundation Model 与生命科学
AI Foundation Model,是指在海量数据和计算资源基础上训练出来的通用、被广泛使用的基础模型。这些基础模型也被认为是构建各种具体 AI 下游应用的基础。
在自然语言处理和机器视觉领域,我们已经对 GPT 等预训练基础模型和下游应用十分熟悉。而如今,生命科学领域也正在发生着类似的改变,生命科学领域的通用基础模型正在形成。
我们都知道,组成蛋白质的 20 种氨基酸 “字母”,决定了蛋白质的性质、蛋白质之间的相互作用关系,也决定了细胞中蛋白质网络的复杂调控关系和复杂的生命活动现象。这些氨基酸 “字母” 以及蛋白质序列,与人类的自然语言又是何其相似。
可以说,将大语言模型所拥有远超人类想象的复杂理解能力和创新生成能力,应用在更加复杂的生命 “自然语言” 上,将有望真正改变生命科学的研究范式。
正如 DeepMind 首席执行官兼创始人 Demis Hassabis 所说:“从其最基本的层面来看,我认为生物学可以被看作是一个信息处理系统,尽管是一个非常复杂和动态的系统。就像数学被证明是物理学的正确描述语言一样,生物学可能会成为人工智能应用的完美领域。”
“从蛋白质的序列和结构到多细胞系统的行为,我们正在开发人工智能基础模型,以理解和预测不同复杂程度尺度上的生命行为。” 在百图生科官网上,有这样一句关于 Life Science Foundation Model 的介绍。
由李彦宏和刘维于 2020 年创立的百图生科,从创立之初就高举生物计算平台的大旗,大投入于构建生命科学大模型的平台技术。历经两年多时间,构建了生命科学领域的 Foundation Model——xTrimo,这是一个千亿参数规模的以蛋白质为中心的大语言模型,从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律。只有在一定程度上真正解码了生命 “语言” 的奥秘,才有希望为当今充满挑战的复杂生命科学问题,包括癌症、衰老等,提供创新性的解决方案。
但是,一个通用的 Life Science Foundation Model 该如何打造?又如何基于此构建下游任务模型以解决具体的生命科学问题?
传统的人工智能方法,需要大量的标记数据才能做出准确的预测。然而在生命科学领域,高质量的标记数据往往供不应求。想要在更少数据的基础上构建更准确的下游任务模型,就意味着底层基础模型需要具有更好的表征或通用能力。
按照百图生科官网的介绍,基础模型是生命科学领域彻底革命性的人工智能技术,因为基础模型可以在海量的未标记数据上进行训练,并且只需有限的标记数据,就可以为多个下游任务模型提供足够的信息。百图生科这种基础模型 + 任务模型的技术体系,使科学家能够更准确地模拟从蛋白质到系统级别的生命,比如可以根据免疫学、神经病学、肿瘤学和罕见疾病等治疗领域的有限数据,提取新颖的见解和出色的预测,从而更好地加速相关治疗或药物的开发。
在今年 9 月举办的第二届中国生物计算大会现场,百图生科 CTO 宋乐博士曾接受机器之心采访,谈到计算生物学、AI for Science 的未来时,他表示 ——
“AI 模型的下一步肯定会有一些新东西。一方面,预训练模型能否训练得规模更大,更加充分,基于预训练模型的下游任务模型是否能够泛化迁移到新的靶点和蛋白质设计问题;另一方面,是如何把单一模态的大模型更好地变成跨模态的大模型。”
“想要解决生命科学问题,下一步需要一个真正能解码、理解生命的大模型。不再只是一个模型,更像是一个模型体系。这些基础模型,无论是在病人某种类型细胞中寻找靶点,还是针对某种分子设计蛋白药物或者小分子药物,都能起到一定的作用。这种基础模型将是生物计算的下一个范式,我们将会有更好的方式去应对生命科学里面各个层次的问题。”
如今,在由 300 多名专家组成的国际团队的支持下,百图生科正在基于 Foundation Model 引擎能力,不断拓展下游任务模型的边界,解决与蛋白质相关的治疗性抗体、工业酶开发以及创新蛋白设计等问题。这一过程不仅推动着生成式人工智能的进一步发展,也正革命性地改变着生命科学领域研究的范式路线。
MaaS—— 人工智能领域的革命性商业模式
基础模型在 MaaS 模式中扮演着重要的角色,可以说它是所有环节的基础,也是起点。
一方面,基础模型的通用性,意味着作为其它特定任务模型的基础,应用于多个不同的任务和领域,开发人员可以基于基础模型,通过微调或迁移学习来适应特定的问题或数据集,从而构建自己的任务模型。
另一方面,基础模型也为开发人员提供了一个强大的起点,加速应用程序和服务的开发过程,而无需从头开始训练和构建模型,更重要的是,这一特征将使得更多的开发者和组织,受益于先进的机器学习和人工智能技术(比如让无编程能力的生物领域科学家们可以轻松拥有 AI 大模型的调用能力)。
MaaS 模式的诞生,得益于大模型技术的颠覆性进展,而这一模型的革命性同样也带来了许多创新和改变,不仅能够降低人们使用人工智能模型的门槛和成本,而且大大加速了机器学习和人工智能技术在各行各业的应用。
这一模式对于行业的变革,不仅影响了许多小型和创业公司,也真吸引着跨国巨头企业们的重视。
赛诺菲作为知名跨国药企,可以说是最积极拥抱 AI 技术的制药公司之一,在过去两年多的时间里,赛诺菲宣布了多项与人工智能领域领先生物技术公司的合作。据不完全统计,仅在 2022 年,赛诺菲就总计支付了近 2 亿美元的合作预付款。
但在诸多的合作案例中,除了基于某些靶点进行候选药物开发,或者推进临床试验等药物研发项目外,我们也能看到,赛诺菲在人工智能技术基础平台建设上的投入越来越高。在过去两年里,赛诺菲通过收购和合作,与多家 AI 制药公司、计算机公司、AI 医学数据公司可谓是展开了全方位合作。
尤其是今年 6 月宣布 “All In” 人工智能和数据科学后,赛诺菲算是迈出了公司转型过程中最重要也是最激进的一步。
“人工智能和数据科学的使用已经支持了我们团队在加速药物发现、加强临床试验设计、改善药品和疫苗的生产和供应等方面的努力。对于我们如何拥抱这些颠覆性技术以实现我们改变医学实践的雄心壮志,我们才刚刚触及表面。” 赛诺菲首席执行官 Paul Hudson 表示。
作为一家创新型的全球医疗保健公司,赛诺菲在研究领域进行了大规模的投资,积累了多个疾病领域和治疗领域的丰富经验和高质量数据。这些独有的数据集对于 AI 模型非常有价值,因为它们可以极大地补充当前公开可用数据的不足,还可以提供大量的训练和验证数据,以适应模型的特定应用场景。或许这是百图生科选择赛诺菲的主要原因。
而百图生科构建的生命科学基础模型 xTrimo 体系,拥有超过 1000 亿个参数,并在包括抗体结构、抗体亲和力、酶功能、免疫细胞功能等 20 多个下游预测任务中取得了最先进的性能。百图生科在高质量数据挖掘和利用、跨模型数据整合和分析、任务模型开发以及工业效率改进方面的优势,则或许是赛诺菲选择与百图生科合作的原因。
当然,不得不提的是,根据协议的条款,赛诺菲将向百图生科支付 1000 万美元的预付现金款项,并将根据模型开发里程碑获得额外的近期支付。基于研发里程碑付款、销售里程碑付款等回报,百图生科未来有望获得超过 10 亿美元总金额。
不过,更为关键的一点是,一个全球头部药企,一个生命科学大模型创业公司,双方似乎都已经认识到,通过 AI 模型的力量,数据的价值可以增加,并可以转化为直接促进新药开发的工具。
在公告中,双方表示 “这次合作将结合赛诺菲的专有数据集、数字基础设施、人工智能和数据科学能力以及药物开发专业知识,与百图生科的大型语言模型、高性能计算和深刻的人工智能理解,开发一系列专门针对特定模态的先进 AI 模型和大语言模型,并共同推进这些模型在药物研究中的应用,加速突破性疗法的发现过程。”
正如赛诺菲全球研究平台负责人 Matt Truppo 所说,与百图生科的合作进一步强调了赛诺菲致力于成为第一个大规模人工智能驱动的制药公司的承诺。而成立不到三年的百图生科,也已经成为了一家拥有颠覆性实力的生命科学人工智能公司。
参考资料:
[1]https://www.businesswire.com/news/home/20231010485897/en/BioMap-Establishes-a-Strategic-Collaboration-with-Sanofi-to-Co-Develop-AI-Modules-to-Accelerate-Drug-Discovery-for-Biotherapeutics
[2] https://youtu.be/P7HjKUlVvVs?feature=shared
[3] https://www.sanofi.com/en/media-room/press-releases/2023/2023-06-13-12-00-00-2687072
[4] https://hai.stanford.edu/news/reflections-foundation-models
[5] https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/
[6] https://www.biomap.com/
[7] https://mp.weixin.qq.com/s/dNXQClZi5ZPBdCHADfK8Mg