除了分数,打出分数背后的理由对于大模型对齐更具价值。
-
论文标题:Reasons to Reject? Aligning Language Models with Judgments -
论文链接:https://arxiv.org/abs/2312.14591 -
Github 链接:https://github.com/wwxu21/CUT
-
优点:训练稳定;实现简单。 -
缺点:收集高质量、多样化的示例数据成本高;无法从错误回复中学习;示例数据往往和模型无关。
-
优点:能同时利用正确回复和错误回复;反馈信号与模型相关。 -
缺点:反馈信号稀疏;训练过程往往比较复杂。
-
步骤 1:收集指令,并获得目标大模型的回复。 -
步骤 2:针对上述指令 – 回复对,标注语言反馈。 -
步骤 3:采用 CUT,基于收集到的三元组数据微调目标大模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章
暂无评论...