大模型指令微调水平在不断地提高,这次微软用上了 GPT-4。
-
论文地址:https://arxiv.org/pdf/2304.03277.pdf -
项目地址:https://instruction-tuning-with-gpt-4.github.io/ -
GitHub 地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
-
英语指令遵循数据集(English Instruction-Following Data):对于从 Alpaca 收集到的 52K 指令,每个指令都提供了一个英文 GPT-4 答案。该数据集主要用来探索和比较 GPT-4 答案和 GPT-3 答案的数据统计。 -
中文指令遵循数据集(Chinese Instruction-Following Data):该研究使用 ChatGPT 将 52K 指令翻译成中文,并要求 GPT-4 用中文回答。 -
比较数据(Comparison Data):让 GPT-4 给自己的反应打分,分数范围从 1 到 10。此外,该研究还要求 GPT-4 对 GPT-4、GPT-3.5 和 OPT-IML 三种模型的响应进行比较和评分。这一数据集主要用来训练奖励模型。 -
非自然指令的回答(Answers on Unnatural Instructions):GPT-4 的回答在 68K 指令 – 输入 – 输出三组核心数据集上解码。该子集用于量化 GPT-4 与指令微调模型之间的差距。
转载: https://mp.weixin.qq.com/s/JWn2wZeg7MJ33zTq2TOCGg
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章
暂无评论...