专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

指令层级，帮助AI大模型防御恶意攻击

AIGC开放社区 · 公众号 · · 2024-11-08 03:48

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！随着ChatGPT等生成式AI产品被广泛应用在AI代理/客服、虚拟助手等领域，在安全方面会遭遇黑客攻击、恶意文本提示等难题。例如，使用特定的提问方式，可以让ChatGPT输出原始私密训练数据。因此，OpenAI的研究人员提出了“指令层级”（Instruction Hierarchy）技术概念，可帮助大模型遭遇不同的指令发生冲突时应该如何应对：系统内置指令高于用户输入的指令，用户的指令高于第三方工具。当高级指令与低级指令发生冲突时，指令层级会让大模型选择地忽略低级指令。 OpenAI通过GPT-3.5 Turbo模型对指令层级进行了多维度的综合测试。结果显示，可将大模型的鲁棒性提升了63%，防御越狱攻击的能力提升了30 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博