美国FAR AI实验室发表技术报告,通过在15个有害示例或100个良性示例上对模型进行微调,能够从GPT-4中移除核心保障措施,使其能够协助用户完成有害请求。研究结果表明,对API(应用程序接口)所提供功能的任何添加都会暴露大量新漏洞,包括让GPT-4提供有针对性的错误信息、生成恶意代码、泄露私人电子邮件等个人信息等。
报告地址:
far.ai/publication/pelrine2023novelapis/paper.pdf
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章
暂无评论...