百图生科宋乐博士浅谈：AI for Science 的下一步，计算生物学的下一程

AI行业动态1年前 (2023)发布 ainavi

0 1200

ScienceAI 原创

作者：萝卜皮

2023 年 9 月 3 日，由百图生科&播禾创新联合主办的第二届中国生物计算大会在苏州工业园区举行。会议间隙，机器之心·ScienceAI 与百图生科 CTO 宋乐博士进行了访谈。访谈就「AI for Science 的下一步」、「计算生物学的现状与未来」、「多久能够实现」、「交叉领域的人才培养」等一系列问题展开。

百图生科宋乐博士浅谈：AI for Science 的下一步，计算生物学的下一程

宋乐博士曾任美国佐治亚理工学院计算机学院终身教授、蚂蚁金服深度学习团队负责人。自 2008 年起，宋乐博士在 CMU 从事生物计算相关的研究，利用机器学习和AI技术对靶点挖掘、药物设计取得了一系列成果，获得 NeurIPS、ICML、AISTATS 等 AI 顶级会议的最佳论文奖。宋乐博士也是 AI 顶会 ICML2022 的 program chair，是该会 39 届以来第二个华人 program chair。

以下为此次访谈的主要内容。

Q：在生物计算大会的圆桌分享中，在解决制药问题的下一步方面宋老师您提到了物理计算、AI 模型、生物实验「三驾马车」并驾齐驱，现在将问题拓展到计算生物学、AI for Science 更大的领域，能具体说一说下一步是什么吗？

A：我觉得就像三驾马车，每一方面都有可以突破的点。无论是生物计算、AI 制药，都需要有计算和实验的组合才行。毕竟最后比如设计出的蛋白，是要通过实际合成来测试和应用的。

在模型方面，下一层肯定会有一些新东西。其中一个方面是，预训练模型能否训练得规模更大，更加充分，基于预训练模型的下游任务模型自身是否能够泛化迁移到新的靶点和蛋白质设计问题。

另一方面是，接下来如何更多跨模态地连接这些大模型。生命科学数据是复杂的，包含着不同尺度的数据。有分子层面的 DNA、RNA、蛋白质数据；还有细胞层面的，比如很多分子之间相互作用形成的复杂网络；以及细胞之间的相互作用……在不同层次的问题上，会有不同层次的数据。比如靶点发现，就需要分析这个复杂网络里几类细胞之间的相互作用，每类细胞的基因表达情况，也就可能需要多个大模型的表征。所以，怎么样把单一模态的大模型更好地变成跨模态的大模型，我认为这是下一步中很重要的事情。

现在大家做的大模型更像是针对某一种类型分子设计而开发的大模型。但是如果真的想要解决生命科学问题的话，我认为下一步需要一个真正能解码、理解生命的大模型。那就不再只是一个模型，更像是一个模型体系，它们之间能够互相连在一起。从一个模态可以推出另外一个模态，从一个模态能够辅助补充另外一个模态，各个模态相互联结。

它的复杂程度，从表面上看，就好比我们看到一个视频，里面有图像、有音频、有文字；但生命大模型的这种关联性还要更加复杂，它是存在嵌套关系的，从一个小的单细胞到一个非常复杂的器官，再到一个人，甚至到社会群体层面的传染病传播……实际上，这里面都有一些数据可以支持一些大规模预训练模型，它们之间通过大模型的方式联系在一起，形成一个基础的架构。这些基础模型，无论是回答病人某种类型细胞中寻找靶点的问题，还是说在一个细胞中针对某种分子设计蛋白药物或者小分子药物的问题，都能起到一定的作用。这种基础模型我觉得是生物计算的下一个范式，我们将会有更好的方式去应对生命科学里面各个层次的问题。

上午（指第二届生物计算大会圆桌论坛）讲的更多是狭义一点的 AI 制药。比如，上午我们谈的比较多的是蛋白质或者是蛋白质相关的小分子药物这一层；这个对于生命科学整个体系来说，只是多个尺度里面的一个环节。因此里面主要涉及的蛋白质分子尺度的基础模型。

我们希望理解所有生命的一些规律，去更好地调控它、改造它，从而为我们所用。让蛋白质甚至细胞变成一个可控的精密仪器，可以完成我们想要的功能，包括生产出更多我们所需的酶以及各种各样的蛋白质……这些我个人觉得是更大层面的AI可以助力的生命科学的发现和设计问题。

Q：关于用人工智能模拟一个数字细胞或者数字器官，从各方面的投入以及目前的技术手段来看，可行性有多高？

A：我觉得这个挺有挑战的。比如说一个细胞，它有很多层次的嵌套。如果要对它有一个比较真实的模拟，就需要对细胞各个层次的机制有比较清晰的了解，然后进行建模。通常情况下，传统模拟用一个物理模型按照简洁的公式去推演，就可以得到一个结果，但前提是科学家需要先找到这些公式这些知识。虽然现在大家做的 AI 大模型，不是一个像传统模拟那样的物理算法模型，它可以从大量的数据里归纳一些规律，然后去做一些预测，但它的模拟还没有到全息的层面。

我觉得要通过实现一个细胞模拟来解决现实问题，会比现在直接用大模型预测蛋白质特性、细胞特性来解决制药或者靶点发现问题要难很多。但是我们肯定是朝着那个方向在努力。这也需要 AI 模型的进一步发展以推动真正的细胞、器官或者人体模拟，类似元宇宙的这种东西。

这里可以解释一下现在 AI 的模型基本原理。大多数情况下，AI 模型是以一种归纳式模型的方式进行工作的。举一个简单的例子，但你看到一座冰山，你想规避它，这是因为你可能以前了解冰山，所以知道大概需要绕行 100 米才能够去避免去撞到它。

但是用演绎推理方式去规避这个冰山的话，你会根据一些已知的物理原则，根据冰山露在水面的体积以及浮力定律来测算水下的体积，最终估算出需要绕行的最小距离。第二种形式有点像演绎方法，即你知道它的原理，然后据此去推算出一些你从来没有经历过的东西。这种能力我们希望 AI 模型也能具备。有了这种能力，AI 就可以不断在归纳中抽象出原理，然后根据原理去演绎更多没见过的场景。我认为通用人工智能也是这么发展的。在生命科学领域肯定也会有这样一个基础的人工智能去做这两件事情。

Q：那么刚刚说的第二种「演绎的形式」与「涌现」有什么关联呢？

A：还是不完全一样的。涌现有的时候会比较狭义一点。比较简单下游任务，一个基于句子去分析情感的模型，或者基于问题去回答问题的模型，它的准确率突然能提升很高，可以叫做一种涌现力。可能这个模型之前一直是慢慢提升的，但是突然间突破一个临界点，它就有个爆发的过程。

刚刚我们所讨论的关于「归纳」、「演绎」是更复杂，也是与人类智能最核心更接近的东西，我觉得有巨大的区别。科学家们能够根据观测到的数据总结出规律，比如牛顿看到苹果从树上落下来，慢慢得到了万有引力定律，然后基于它又推出无数的东西；对于没有见过的东西，我们也可以去做个预测，然后还可以被验证。现在人工智能的能力像是能够吸收大量的观测数据，但是还不能很好地根据观测数据去生成一个类似「底层的规律」。当然，我们是向着那个方向发展的。

如果有了那个能力的话，人工智能就会非常 powerful。它就可以自己归纳出一些规律，然后根据这个规律又去推演一些它没见过的东西。再就是能让这个智能体超越数据原始分布以外的东西，就是 Out-of-Distribution，或者一些泛化的能力，那才是最强的方法和能力。就像人类的智能一样，我觉得包括人工智能本身的发展，也是往这个方向推进的。

Q：这个「powerful」的应用场景预计多久能够实现呢？

A：我觉得未来十年是有可能的。因为已经有一些学术工作在尝试做这件事情。现在神经网络像一个黑盒一样，虽然预测很准，但是你不知道为啥预测很准。有些工作是在尝试根据这些神经网络的模型和数据，从神经网络的「黑盒」现象中抽象出一些可以用简介公式描述的规律出来。这样就可以像物理学家一样，根据这些规律去推展出更加多涉及到虚拟数据的观测。然后通过虚拟数据实验，可以去验证现在比较难以实现的场景，比如天文的场景，高能物理的场景等等。当然，它现在还不是特别通用，相信在未来的几年里这类工作会变得越来越完善。

另外一方面，其实传统的 AI 领域已经有大量研究在做，纯基于规则或逻辑的推演。我们知道的一些软件，包括像数学里面的 Mathematica 这种，它可以做一些符号推理的；还有一些逻辑推理的引擎，它也可以做逻辑推理的；但是，目前逻辑推理这类引擎和现在「黑盒」人工智能这类引擎，没有很好的接轨。

随着科研人员不断去从神经网络深度学习的黑盒抽象出一些符号化的、公式化的东西，那它就可以和这些数学推理引擎和逻辑推理引擎结合起来，去产生更加复杂的东西。现在像 ChatGPT 这类智能学习模型，未来人们能够更轻松地用语言跟它交流，那么它后面也可以驱动这些逻辑推理引擎、数学推理引擎变得更加聪明。我觉得是很快会发生。

Q：在时间方面，您是怎样得出比较乐观的估计呢？

A：有挺多途径的。纯粹从大模型的角度来说，比如把模型做得更大、数据更多，这是让我们在当前获得巨大的收益的一个非常重要的手段。但是，如果希望像人一样能够有个新的牛顿，有个新的爱因斯坦，它需要通过符号化、数学化的推理，以及从现象到规律的过程。

我觉得人工智能的下一层大概是，怎样从一个现象性的预测模型变成一个能够抽象、推理的引擎，同时还要结合它原来基于现象数据进行准确预测的引擎，去做一个流畅的闭环系统。两个系统让它能够相互作用。

你想想人也是这样，人有「快思维」、「慢思维」。我们很多情况下看到一个照片，很快认出是谁；听一个声音马上知道是谁；看到一个周围的环境，马上就有个感觉来判断环境安全还是危险；这就是「快思维」，可能没怎么经过大脑的仔细思考，你就有这种感觉了。但是有时候遇到一个比较难解的逻辑性的复杂问题，你就会用到「慢思维」、深度思维；你甚至会把看到的信息在图纸上用记号标出来推演一下，才仔细作出决定。

但人在这两套系统之间能够非常完美流畅地切换。同时「慢思维」得出的特别精细的推理，又可以回来指导快思维的过程，这两个系统有非常完美的融合，所以才有了智慧。

现在大多数的深度神经网络都是一个「快思维」的系统，「慢思维」的系统则更像是刚刚我所说的那些数学推理的引擎、逻辑推理引擎，它们是两套完全不一样的架构。所以现在有很多研究人员在致力于怎么样把它们融合起来。如果看到这些前人一些不完善的工作还在发展中，可以看到更加多的途径去实现更强的人工智能。这些技术都在发展，它们的融合也在加速，并且技术的进步是相互促进的，实际也许会更快。所以，再给一定的时间应该会有更加大的突破。

Q：那么我们再把尺度拉回生物计算领域，关于百图生科 AIGP 平台、xTrimo 大模型体系，接下来比较近的下一步是什么呢？

A：我们现阶段最重要的目标是能够利用这些引擎设计出一些有用的蛋白，比如针对一些难成药靶点设计出一些结合性质好的蛋白质。为此我们做了这样一件事情：首先把模型做得更准确。更准确实际上是对我们真实世界的蛋白质在计算机里有一个更准确的评判，类似裁判，而且是要多个尺度多个角度的裁判，都要求比较准。其次是蛋白质生成模型更好，能够在各种条件下来生成，让我们更好的探索蛋白质的空间。

这些裁判包括蛋白质和靶点结合的紧密程度，蛋白质本身的稳定程度，蛋白是不是容易表达，蛋白会不会容易溶解等一系列性质。需要一系列大模型把这些做得更准确，而且在更少的数据下做得更准确。这样再用这些裁判来指导我们的生成模型，去生成我们想要的蛋白。

这是在未来三五年我们会重点发力的方向，让这些基于大模型的裁判构建得更加准确，用裁判来指导的生成更加准确，且让我们可以更自如地生成式设计所需要的定制蛋白。再远点的话，除了蛋白质设计之外，还有其它不同层次的问题，比如细胞的设计，甚至可以是一个器官层面多种细胞相互作用的设计或预测，以及更多可以进行干预的尺度。

具体到大模型这边，我可以想象有一个横向和纵向的发展。横向的话，会有更多各种各样不同蛋白质性质的预测和生成模型，比如，预测酶的催化效益、药物靶点亲和力、蛋白的稳定性，以及生成满足这些特性的高性能蛋白质。这种场景非常多，所以需要有一系列的模型才能在不同蛋白设计场景下做好。纵向的话，需要把大模型打磨得更好，让这些模型的使用变得更加容易，有个比较好的交互界面，能够让生物医药的老师、同学不用编程代码就可以调用这些模型的能力。

希望把刚刚我说的这些裁判模型和生成模型串起来，通过一两个点击链接的配置，去设计优化一个蛋白质的过程。我们正在做的事情是努力把蛋白质设计门槛变得更低，同时把它的设计成功率变得更高。

Q：您有提到让大模型在数据更少的情况下预测得更准，让数据既大又小，能具体解释一下吗？

A：这个问题可以拿日常生活做比喻。比方说你想把一个人培养成非常厉害的外科专家，有一种理论上的培养方式就是全部跳过他小学、中学、大学的基础教育，直接让他去学外科手术，让他只做这一件事。让他从婴儿或者幼儿阶段就开始，这个过程可能要经历无数次失败，也许需要学 100 年他才能成为一个外科技术专家。

因为他在没有基础教育的情况下，他要去理解手术中的一些规律只能单靠手术场景中试错给出的经验，是很难成为一个专家的。实际上，我们的基础教育则可以缩短这个过程；它是先比较有结构化地去学习基础知识，然后这些知识可以锻炼你的理解能力，再学习外科医生的高阶知识就会比较迅速了。

这个基础大模型有点像先打好一个基础，而且打基础所需要的这些学习数据、应用场景非常多，并且容易获得，造价更低，更加安全；这个过程中是需要比较多，比较大的数据量来训练的。

当有了「基础教育」之后，再去变成一个「外科医生」，他所需要的训练时间就可以比较短；这个过程所需的数据就比较专一了，并且可以根据专业知识给予一定的限制，整体所需的数据相比于前边「基础教育」会小很多。

但是你可以想象，基础模型在这个过程中，「基础教育」都是和「外科医生」看似无关的，但是有帮助。这个训练可以大大缩短成为「专家」所需的训练时间，大概就是这样一个比喻。

也可以理解为是常识的交流能力，一些能够把新问题拆解成熟悉场景的能力。然后，当你再遇到新问题的时候，如果拆解后发觉与以前解决过的问题相似，就可以用以前的思维方式或者曾经取得成功的模式去处理这个新场景。

这个能力就相当于它学到了常识，然后再去学习专业能力。这个与我们前面提到的大模型的泛化能力与逻辑能力，是有强相关性的。泛化能力就是一个模型在一个新的场景里用多少的数据就可以做得很好的能力。刚刚我们说的「成为外科专才」就是一个新场景。这个人或者这个模型多快可以变成一个「外科医生」，就是它的泛化能力。

Q：谈一谈大模型训练的成本问题？

A：成本的话，训练一个大模型是要花费很多 GPU 的，比如说训练一个千亿级的大模型，它需要大约 1000 个GPU，花三四个月的时间才能获得一个比较好的模型。从头训练一个模型，可能仅仅购买 GPU 的费用，就需要几千万人民币。

但是训练好这个模型之后，它用到不同的场景。就像一个软件，你开发好之后，它其实可以复制在不同地方应用。如果如果是从零开始进行模型训练的话，确实可能需要千万量级的经费才能做到。但如果从后续应用的角度讲，后续的训练调整相对会比较轻量一点，但也是会比从头训练一个大模型要便宜很多。

对于生物计算大模型来说，有些蛋白质领域的数据需要实验室去验证，需要做一些生物实验，周期会长一点，也可能昂贵一点。对于自然语言来说，可能一条精标签的数据只是找一个人去标记一下，那可能是会相对便宜一点，它不需要专业的科研人员用昂贵的仪器消耗大量时间去做验证。

Q：圆桌论坛里您有提到大模型的迭代的周期在半年到一年左右，能否具体谈一谈？

A：数据有两种方式迭代，它其实很有趣的。它的更新可以是模型乘以数据。如果数据保持不变的话，你也许把模型去变得更大，训练更充分，是可以得到一些收益的；如果采集一些多样性的数据灌进你的模型，同样大小模型它也可以获得一个收益。

所以 6 个月的迭代更像是数据已经足够的状况下进行的更新。刚才我有提到训练一版这个模型大约需要三四个月的时间，再加上后面对它的效果评判，整体加起来最快在 6 个月左右。如果你继续，比如把参数扩大，那训练时间可能更久。这种计算能力到模型规模之间，你可以大概算出来它需要多少时间。

数据则要花更长的时间去生产和积累，通常情况下去获得一个更大量级的生物数据，至少要花几个月甚至一年的时间。现阶段高质量生物数据的积累还是比较大的一个瓶颈。

Q：关于目前计算生物学与传统生物学交织存在的现状，以及目前AI在传统生物学领域的普及可能还没有那么高，对此您有什么看法？

A：我觉得科学都是有个发展的过程。即使物理学现在发展到一个非常高精尖的阶段，有大量的理论模型、计算模型，但是回看历史，物理学在牛顿等人之前也多是纯观测的科学。你用肉眼去望天上的星星，记录一下，得到一些数据点，然后慢慢总结一些规律，再慢慢构建理论、出现计算的。

生物在过去更多是观测性科学，因为它这个体系的复杂性，所以有很多东西我们还没观测到。当然这个是非常重要的，还会持续进行的。但是，除了观测之外，还有其它的手段可以探索生物，例如物理计算的方法、人工智能的方法。

通常情况下，人们对一个方法的接受程度取决于人们对这个方法的理解程度。所以很多情况下，需要我们能够在课程或者研究中更多去教授、应用这些知识。生物学家也有基于物理计算的基础研究建模，他们可能对整个领域会有更好的了解。这时候可能也需要有一些对计算 AI 有很好了解的同学，他可以去开一些 workshop，同生物信息领域的老师交流，把 AI 模型的一些逻辑解释清楚。

这样通常会提高更加大的层面的生物领域老师、同学对 AI 模型的一个理解。你有了更好的理解，无论是优势点还是局限性，都是很有帮助的。这样对应用场景有一个比较好的认识，自然也就会去尝试使用。当然这个领域非常交叉了，所以很不容易。

通常要求一个人既懂生物，又能做实验，还要懂技术，另外还要会写代码，是很高难度的要求。但是，我们现在还处在这么一个阶段，不把这些东西放一起还挺难去跨越这个鸿沟的。所以，还是需要大家都去互相 open 地学习。经过一段时间之后，大家会更加清晰地了解怎么样地组合才是一个高效的应用方式。

Q：给计算生物学领域同学的建议

A：我们公司里面也有很多生物的同学和老师。我们经常讨论，有时候说生物专业更加像文科。因为它经常是记住一些前人观测到的一些生物特性、特例、规律，所以有很多记忆的成分在里面，计算的成分相比物理化学等专业相对较少。这个时候生物的同学可能就需要再增加一些偏计算、偏编程的能力了。可能会给他们推荐一些数学建模相关的、program 相关的、人工智能与 program 结合的等课程去学习。我觉得这样可以大大拓宽生物同学的科研思路，增加解决生物问题的途径。

另外像 ChatGPT 之类的聊天工具，也是很好的助力。一方面，ChatGPT 这类工具可以根据同学的具体要求，帮忙在海量文献中提取的有效信息，并可以进行总结，这个运用好，在了解一个新领域时是可以节省大量时间的，对科研的帮助是蛮大的。这个对于计算、编程专业的同学去快速了解生物领域的知识也是很有帮助的。

然后 ChatGPT 这类工具也可以接入一些代码生成工具。未来也许不需要生物的同学对编程的语言特别精通，只要对编程逻辑有了解，就可以给 ChatGPT 一些指令，让它生成代码去执行和分析数据。这样的话，相当于拓展了那些不会编程的同学的科研能力。

然后，新技术的应用可能会逐渐改变我们的科研思路、研究模式，对应的也会改变我们的学习、工作方式，要适度去学习利用好这些新工具。

Q：AI 在逐渐改变我们的科研方式，会不会虚拟实验代替现实实验，就像上午有位老师所畅想的「未来论文不经AI验证不能发表」？

A：其实我不怎么同意这个观点的。我觉得模型计算、推测的一些东西，它最终还是要经过具体的实验验证的。因为我们用 AI 设计的药物、酶制剂等等，最终都是作用到现实世界的。

毕竟那只是模型，肯定有不完善的地方。不过，基于 AI 模型可以推断出很多新东西，并且很快速、准确率高，那它是可以减少我们在真实世界中做验证的次数的。

就好比描述物理世界，从牛顿力学到相对论、量子物理，我们对世界的描述一直是非常粗糙的近似，虽然它是个不断向真理趋近的过程。所以，我认为模型也是这样的发展过程。我们的 AI 模型做得再好，它也是对现实世界的一种近似。它可能会越做越好，但是远远没达到把现实世界的每一个细节 100% 能够解释的程度。虽然如此，但它已经有了一个很好的推演能力，可以推出一些我们还未观察到的现象。如果它的推测能够一次过被实验验证，我觉得已经是非常好的了。

关于百图生科

百图生科（BioMap）是一家 AI 大模型驱动的生命科学研发平台，由百度创始人李彦宏于 2020 年创立。公司致力于结合前沿 AI 和生物技术，构建的千亿参数生命科学跨模态大模型体系「xTrimo」和生成式创新蛋白设计平台 AIGP，能够通过生成全新的蛋白质与生命体对话的方式，实现特定的生物学功能，并解决生命科学行业的痛点问题，比如靶点发现、药物设计、酶的从头设计和优化等，从而改善人类健康、实现可持续发展。

# AI行业动态