编辑 | X
大型语言模型 (LLM) 已成为增强自然语言理解的变革力量,代表着通用人工智能的重大进步。LLM 的应用超越了传统的语言界限,涵盖了科学领域各学科中开发的专业语言系统。这也导致了科学 LLM 的出现。
作为科学人工智能(AI for Science)领域的一个新兴领域,科学 LLM 值得全面探索。然而,目前缺乏系统的、最新的调查来介绍它们。
近日,来自浙江大学的研究团队,系统地描述了「科学语言」的概念,同时对科学 LLM 的最新进展进行了全面回顾。鉴于科学学科领域广阔,该分析重点关注生物和化学领域。这包括对 LLM 的文本知识、小分子、大分子蛋白质、基因组序列及其组合进行深入检查,并根据模型架构、功能、数据集和评估对其进行分析。
最后,研究人员批判性地审视当前的挑战,并指出有希望的研究方向以及 LLM 的进步。全面概述该领域的技术发展,本次调查将成为研究人员在科学 LLM 错综复杂的领域中探索的宝贵资源。
论文一作表示:「我们关于科学大语言模型的 75 页调查,特别关注生物和化学领域。我们总结了文本、分子、蛋白质和基因组 LLM 的最新进展,更有趣的是,它们的比对。」
该综述以「Scientific Large Language Models: A Survey on Biological & Chemical Domains」为题,于 2024 年 1 月 26 日发布在预印平台 arXiv 上。
目前,LLM 是处理自然语言和收集世界知识的尖端工具。LLM 的卓越表现激发了其在当今时代演变成通用人工智能(AGI)的希望。
除了自然语言之外,为了封装更专业的科学知识,还开发了各种科学语言,如图 1 所示。
这包括科学研究领域的文本表达、定义数学公式的数学语言、表示分子结构的化学语言(例如 SMILES),以及描述蛋白质或基因组并详细描述生物体复杂构成的生物学语言。这些科学语言有其独特的词汇,其中每个术语都具有与自然语言完全不同的特定含义。
为了促进对科学语言的理解,研究人员设计了针对各个科学领域和学科定制的科学大语言模型 (Sci-LLM)。作为人工智能科学研究中的一个新兴领域,许多科学 LLM 已经提出了修改后的架构、学习方法、训练语料库以及评估基准和标准。
尽管取得了显著的成就,但这些模型大多是在各自的研究领域内进行探索的。目前还缺乏一个全面的综述来统一这些语言建模的进展。
专注于生物和化学领域的 LLM
在本次调查中,研究人员通过系统地回顾科学 LLM 的技术进步并密切参考普通 LLM 来填补这一空白。研究重点放在生物和化学语言上。具体来说,涵盖了分子语言、蛋白质语言和基因组语言。
除了这些专门的科学语言之外,以自然语言撰写的教科书、专利和研究论文中蕴含的大量科学知识。因此,探索侧重于科学知识的文本 LLM,更重要的是,涵盖各种类型的科学语言的多模态 LLM。
在深入研究每种语言系统时,首先回顾 LLM 架构并将其分为三类:仅编码器、仅解码器和编码器-解码器。然后报告了模型功能,并总结 Sci-LLM 可以执行的典型下游任务。在模型训练和评估方面,研究收集了一堆常用的训练语料和评估基准。最后,研究人员提出了科学语言建模的判别性和生成性任务的适当标准。
这项调查仅限于特定范围内。首先,关注科学语言,特别是化学和生物语言。其次,在讨论文本 LLM 时,重点仍然是用自然语言表达的化学和生物领域知识。第三,技术探索主要局限于基于 Transformer 的语言模型。
图 2:本次调查中 Sci-LLM 的研究范围。专注于生物化学科学领域内的科学语言(即文本、分子、蛋白质和基因组语言)及其组合(即多模态语言)。(来源:论文)
这项调查的独特界限使其有别于其他对 LLM 以及分子、蛋白质和基因组计算模型的评论。与主要以自然语言为中心的语言相比,研究重点更倾向于科学语言。与仅关注分子、蛋白质或基因组数据的调查不同,目标是为化学和生物研究提供语言模型的全面视图。此外,深入研究多模态 LLM,探索文本和分子/蛋白质/基因组语言之间的相互作用。
该调查的贡献可总结如下:
-
对科学领域内的语言建模进行全面回顾,涵盖文本、分子、蛋白质和基因组语言,强调特定领域的知识。 -
提供了现有 Sci-LLM 的详细摘要,涵盖模型架构、功能、训练数据、评估基准和评估标准。还在图 3 中展示了 Sci-LLM 的进化树。 -
列举了 sci-LLM 的可用资源,在 https://github.com/HICAI-ZJU/Scientific-LLM-Survey 开源并维护相关材料,从而为该领域的新手提供便利。 -
本次调查首次全面概述了多模态科学 LLM 的设计,旨在探索各种科学语言之间的相互作用。
最后,研究人员讨论了 Sci-LLM 的研究挑战和未来探索的潜在途径。鉴于生成式 LLM 在科学应用中的巨大优势和日益突出的地位,讨论主要集中在这些生成式 Sci-LLM 上。这种有针对性的方法使我们能够彻底研究生成模型在推进 Sci-LLM 领域所提供的独特方面和可能性。
四个关键挑战
尽管之前的研究在 Sci-LLM 领域取得了显著的进步,但重要的是要承认这一研究领域仍处于起步阶段。在准备这项调查的过程中,研究人员对现有研究进行了彻底检查,并确定了一些尚未解决的关键挑战。这些挑战凸显了 Sci-LLM 研究的不断发展性质,并强调了在该领域继续探索的必要性。
1. 训练数据:数据是人工智能模型开发的基础。在探索 Sci-LLM 时,关注影响其发展和有效性的关键因素。包括:预训练数据集的规模、微调数据集的质量、缺乏跨模态数据集。
2. 架构和学习目标:虽然大多数 LLM 依靠基于 Transformer 的架构来学习语言中的语义相关性,但这种方法可能不太适合 Sci-LLM。这种不匹配有几个原因:处理较长的序列、纳入 3D 结构信息、自回归学习目标的局限性。
3. 模型评估:LLM 的有效评估仍然是研究重点的关键领域。然而,Sci-LLM 的独特性质需要采用量身定制的评估方法。
4. 道德:Sci-LLM 的开发和应用中的伦理考虑是多方面且至关重要的。首先,数据隐私和同意至关重要。其次,存在滥用信息的风险。最后,确保公平获得 Sci-LLM 的好处,防止科学研究和医疗保健领域现有不平等现象加剧,是道德上的当务之急。
七个未来发展方向
为了推动人工智能驱动的科学发现领域的发展,提出了未来探索的七个有前景的研究方向。
-
构建更大规模、高质量、跨模态的训练数据集。
-
将 3D 立体信息纳入科学语言系统。
-
Sci-LLM 与外部知识资源的结合。
-
Sci-LLM 与物理仿真交互。
-
使用专业工具和代理增强 Sci-LLM。
-
计算评估指标和基准的制定。
-
与人类伦理超级一致。
研究人员表示:我们的目标是为人工智能和基础科学界提供全面而有见地的资源,促进合作并推动「人工智能促进科学」研究议程。通过有效地对科学语言进行建模,LLM 为实现通用人工智能铺平了一条更稳定的道路。
GitHub 地址:https://github.com/HICAI-ZJU/Scientific-LLM-Survey