对齐新范式:修正未对齐的答案比生成对齐的回答更容易。
-
论文地址:https://arxiv.org/abs/2402.02416 -
项目主页 & 开源地址:https://aligner2024.github.io -
题目:Aligner : Achieving Efficient Alignment through Weak-to-Strong Correction
Correcting unaligned answer is easier than generating aligned answers. 修正未对齐的回答要比生成对齐的回答容易。
-
作为一个自回归 Seq2Seq 模型,Aligner 在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上训练,学习对齐与未对齐答案之间的差异,从而实现了更精准的模型对齐。例如,在对齐 70B LLM 时,Aligner-7B 大规模降低了训练参数量,相较于 DPO 小 16.67 倍,比 RLHF 小 30.7 倍。
-
Aligner 范式实现了从弱到强的泛化,采用高较小参数量的 Aligner 模型监督信号微调参数量大的 LLMs ,显著提升了强模型的性能。例如,利用 Aligner-13B 监督下微调 Llama2-70B,其帮助性和安全性分别提升了 8.2% 和 61.6%。
-
由于 Aligner 即插即用的特性以及它对模型参数并不敏感,它能够对齐如 GPT3.5、GPT4 和 Claude2,这些无法获取参数的模型。仅一次训练,Aligner-7B 对齐并提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。其中 Aligner-7B 显著提升了 GPT-4 的帮助性和安全性,分别提高了 17.5% 和 26.9%。
值得注意的是,Aligner 在训练和推理阶段都不需要访问上游模型的参数。Aligner 的推理过程只需要获取用户的问题和上游大语言模型生成的初始答案,然后生成更符合人类价值观的答案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章
暂无评论...