从涌现和扩展律到指令微调和 RLHF,OpenAI 科学家带你进入 LLM 的世界。
-
我们越来越希望教会模型掌握更抽象的行为 -
指令微调的目标函数似乎是教授这些行为的「瓶颈」 -
最大似然目标是「预定义的」函数(即不可学习的参数) -
我们能否参数化目标函数并学习它?
-
最大似然有过于强大的归纳偏见,当模型规模变大时,这个问题会更显著; -
学习目标函数是一种不同的范式,有助于缓解这个问题,能提供很大的提升空间,ChatGPT 等一些成功利用 RLHF 的案例只是一个开始; -
其原理很可靠,值得进一步发掘其功效。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...