仿照计算机系统的权限概念，指令层级帮助大模型防范多种攻击

SparksofAGI · 公众号 · · 2024-04-25 22:24

文章预览

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions 仿照计算机系统的权限概念，指令层级帮助大模型防范多种攻击训练 ‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍ 今天的LLM容易受到提示注入、越狱和其他攻击的影响，这些攻击允许对手用恶意的提示覆盖模型原来的指令。本文中，作者认为这些攻击背后的一个主要漏洞是LLM通常将系统提示（例如，应用程序开发者的文本）与不受信任的用户和第三方的文本视为同等优先级。为解决该问题，他们提出了一个明确定义模型在不同优先级的指令冲突时应如何行为的指令层级体系（instruction hierarchy）。然后，他们提出一种自动化数据生成方法来展示这种层级化的指令遵循行为，这种方法教导LLM有选择地忽略低权限的指令。作者将这种方法应用于模型，显示了它对标准能力造成的损伤最小的同时极大地 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博