近日,天津大学熊德意教授团队发布了大语言模型对齐技术的综述论文(下文简称为对齐综述),全文共 76 页,覆盖 300 余篇参考文献,从 AI 对齐的角度对大语言模型对齐的相关技术进行了全面概述。为提供一个大语言模型对齐的宏观视角,对齐综述介绍了 AI 对齐的起源和相关概念,从 AI 对齐的视角,将目前可用于大语言模型的对齐相关的技术方法和提案分为外部对齐、内部对齐、可解释性三大类。并且讨论了当前大语言模型对齐方法的脆弱性,以及对齐评估的方法和基准,展望了大语言模型对齐技术未来的研究方向。
综述简介近年来,大语言模型取得了显著进展,其中最为人们所熟知的有 OpenAI 的 ChatGPT 和 GPT-4 等。这些模型在众多领域如数学、逻辑推理、医学、法律和编程中展现出接近人类的水平。但随着大语言模型能力的飞速发展,关于它们可能带来的伦理风险和对人类的潜在威胁的担忧也随之增长。大语言模型可传播其训练数据中的有害信息,例如偏见、歧视和有毒内容等。它们可能会泄露训练数据中的私密和敏感信息,或产生误导性和虚假性信息。未来这些语言代理将越来越多地融入我们的日常生活,任何未对齐行为都可能导致意想不到的后果。因此,需要推动大语言模型对齐技术的研究和突破,使模型的输出和行为与人类的期望和价值相一致。目前,大语言模型对齐研究主要聚焦在外部对齐领域。然而,对对齐的整体理解不仅应该涵盖广泛研究的外部对齐,还应该包含目前仍处于研究起步阶段且具有巨大潜力的领域,如内部对齐、机械可解释性等。虽然这些新兴领域的研究有些仍然停留在理论阶段,或仅仅是思想实验,但它们对大语言模型对齐技术研究及未来发展是不可或缺的。鉴于此,天大自然语言处理团队从更广泛的 AI 对齐视角,审视大语言模型对齐技术,并从多个角度进行深入讨论。
论文地址:https://arxiv.org/abs/2309.15025参考文献Github网址:https://github.com/Magnetic2014/llm-alignment-survey,如果有遗漏的文献,欢迎大家告知添加。什么是大语言模型对齐?作为讨论大语言模型对齐相关工作的重要背景,对齐综述先对 AI 对齐进行了概述,简要介绍了 AI 对齐的起源、研究背景和相关概念。相比于近几年横空出世的大语言模型,AI 对齐的研究相对更早。早在 1960 年,控制论之父诺伯特・维纳就表达了自己的担忧:如果我们使用一个机械代理实现我们的目标,一旦开始它的操作,我们就无法有效地对其干预,因为该操作是如此之快且不可撤销,以至于我们在操作完成之前没有数据进行干预,那么我们就最好确保该机器的用途是我们真正想要的用途,而不仅仅是对它的生动模仿。这段话强调了确保 “机械代理” 的目标与我们真正想要的目标保持一致的重要性,强调机器和人类目标之间的一致性。但随后很长一段时间,此类研究并没有真正开展,直到 2010 年左右,Stuart Russell 等人逐步开始研究这一领域,并将其称为 “价值对齐问题”(Value Alignment Problem)。Russell 强调了将 AI 的目标与人类价值对齐的重要性,以确保 AI 系统在各种情境下都能为人类带来益处,而不是造成伤害。受上述观点启发,对齐综述从对齐研究的内容出发定义了 AI 对齐:AI 对齐是确保人工智能代理的外部和内部目标与人类价值一致的技术。其中外部目标是 AI 的设计者根据人类价值定义的目标,而内部目标是 AI 代理内部优化的目标。由这个定义出发,对齐综述讨论了正交性论点、工具性目标趋同等 AI 对齐领域重要的概念和假设。值得注意的是,目前 AI 对齐研究中最受关注的正是大语言模型对齐,且大语言模型对齐的许多概念、方法论来自于更广泛的 AI 对齐研究。一方面,大语言模型作为新兴的高性能 AI 系统,为 AI 对齐研究提供了坚实的基础。许多 AI 对齐概念和提案,例如对齐的理论假设和实证方法,都可以使用大语言模型(而不是假设的超级智能系统)进行实验。另一方面,大语言模型研究的快速推进不仅扩展了 AI 对齐研究的前沿,还可以为 AI 对齐提供工具。当然,强调大语言模型对齐对 AI 对齐的重要性并不意味着我们可以在 AI 对齐的背景之外进行大语言模型对齐研究。对 AI 对齐的广泛深入的研究必定能促进大语言模型的对齐。从大语言模型潜在风险论证大语言模型对齐必要性大语言模型是一种变革性 AI 技术,它将重塑社会和科学技术发展,但同时也存在多种可见及预见的风险。首先,大语言模型可能生成不符合人类期望的文本,其中可能包含歧视、偏见和泄露他人隐私的内容。其次,大语言模型由于其固有的幻觉问题,有可能会生成不真实、前后不一致和具有误导性的内容。另一方面,大语言模型也会被别有用心的人用来执行恶意行为。例如,未经对齐的大语言模型能够生成以假乱真的假新闻,也能够帮助黑客们对网络上的设备开展攻击。这些恶意行为会对我们的日常生活产生负面影响,甚至会对整个社会造成严重的伤害。除此之外,大语言模型的训练和部署需要消耗巨大的计算资源和电力,同时还会对人们的就业产生影响。随着其能力的不断增强,大语言模型还可能展现出 “追求” 自我保护、自我增强、获取资源等目标,这些目标在通用人工智能中通常被称为工具性趋同目标,因为几乎所有 AI 代理都有可能将它们作为亚目标。大语言模型对齐综述从以上视角详细论述了大语言模型对齐的必要性。大语言模型对齐方法 AI 对齐是一个旨在确保 AI 系统的决策与人类的价值观、期望和目标保持一致的过程。当我们谈到大语言模型的对齐时,意味着这些模型不仅能够理解人类语言,还能够按照我们的预期和道德伦理响应。这涉及到社会、伦理、哲学及技术等多方面的考量,以确保 AI 技术的发展不会对社会产生负面影响。具体说,大语言模型对齐研究可以分成三大领域:外部对齐、内部对齐和可解释性。外部对齐旨在选择正确的损失函数或奖励函数,并确保人工智能系统的训练目标符合人类价值。换言之,外部对齐试图将指定的训练目标与其设计者的目标对齐。研究者们针对外部对齐提出了许多方法。根据各类对齐方法能够监督的能力范围,对齐综述将其分为非递归监督 (Non-recursive Oversight) 和可扩展监督 (Scalable Oversight)。其中非递归监督只能监督人类能力范围之内的任务,而可扩展监督则能将监督范围扩大到超出人类能力范围的任务,以更好地应对强大的 AI 模型。
未来方向展望除了介绍大语言模型对齐目前已有的相关工作之外,对齐综述也对未来的研究方向进行了展望,主要分为七个方向:大语言模型对齐理论研究、可扩展监督、欺骗性对齐、大语言模型的自动对齐、可解释性研究、基于对抗攻击的大语言模型对齐评测及促进大语言模型对齐的研究领域建设。大语言模型对齐理论研究:大语言模型对齐面临的挑战复杂且多样,需要借鉴不同学科的多种思想和方法。对齐综述总结并强调了对齐理论研究中的一些关键领域,如决策理论、可矫正性和世界模型。其中决策理论旨在深入研究大语言模型的反事实推理和潜在的悖论问题;可矫正性旨在研究如何提高大语言模型接受用户的更正而不抵制和规避的能力;而世界模型则是为大语言模型提供一个更接近现实世界的环境,以确保大语言模型能够感知和适应现实世界的变化。可扩展监督:可扩展监督是一个重要的研究领域,旨在确保人工智能技术以安全和负责任的方式开发和使用。通过制定能够适应人工智能快速增长和发展的可扩展框架,确保 AI 技术造福社会,同时最大限度地减少其潜在危害。可扩展监督的核心挑战是人工智能系统设计执行的任务的复杂性。对于人类难以直接判断和完成的复杂任务,AI 对齐已经提出了相关的对齐方案,但这些方案尚未经过大规模的实证验证。欺骗性对齐:欺骗性对齐是指人工智能代理通过假装与基本目标对齐以避免在训练期间被修改。一旦不再面临被修改的风险,智能体可能会停止优化基本目标并开始追求自己的内目标,这可能与其设计者定义的基本目标完全不同,并且可能有害。尽管欺骗性对齐通常在理论上进行探讨,但考虑到大型语言模型能力的快速进步,人们越来越担心欺骗性对齐实际出现在大语言模型中。尽管对其存在的可能性仍有分歧,但其严重性已得到广泛认可。考虑到这种严重性,我们最好在它真正发生之前采取经验主义方法进行监测。大语言模型的自动对齐:大语言模型的自动对齐是指开发自动化的对齐 “研究员”,协助人类开展对齐研究。监督者可以通过这些方法了解人工智能模型的行为,检测异常情况并及时发现未对齐行为。可解释性研究:可解释性研究可以帮助破除大语言模型的黑盒属性,然而,随着大语言模型的复杂性和规模不断增长,确保它们保持可理解性和透明性成为一项日益复杂的任务。目前,许多尝试发掘可解释性的工作只能提供表面的见解,无法深入研究模型复杂的决策过程。考虑到人工智能的跨学科性质,这可能需要机器学习研究人员、伦理学家和神经科学家之间的持续合作来推动可解释性研究的进展。基于对抗攻击的大语言模型对齐评测:对抗性攻击是人工智能领域的强大工具,旨在通过有意设计的输入迷惑或误导人工智能系统。考虑到大语言模型的强大能力,使用一个大型模型作为攻击者来生成针对对齐的对抗性示例可能是测试和评估另一个模型的对齐能力的有效方法。这种由对抗性攻击驱动的动态测试有助于确保大语言模型能够稳定地处理意外输入。虽然这种方法增加了一些复杂性,但从这些对抗性测试中获得的见解可能是无价的,帮助全面了解模型在对齐方面的优点和缺点。促进大语言模型对齐研究领域建设:人工智能领域内的对齐研究社区仍处于萌芽阶段,许多问题尚未得到解答,许多挑战也尚未解决。当前的情况缺乏有凝聚力的科学范式,导致理论、方法和实证结果存在争议。作为目前最有前景的对齐方法测试平台,大语言模型可以作为检验思想实验和提案的平台,这将有助于制定稳定的研究方法,在关键问题上建立共识,并为人工智能对齐制定一致的科学框架。另一方面,人工智能对齐社区深厚的思想积淀也将指导大语言模型研究社区实现对大语言模型的高效对齐。因此,大语言模型和人工智能对齐两个研究社区之间的联系将建立一个对双方都有利的良性循环。