专栏名称: AI寒武纪
Attention Is All You Need
目录
今天看啥  ›  专栏  ›  AI寒武纪

OpenAI 推出全新技术RBRs:无需大量人工数据的AI安全新方法

AI寒武纪  · 公众号  ·  · 2024-07-25 07:42

文章预览

刚刚OpenAI 开发并应用了一种利用基于规则的奖励(RBRs)的 新型偏好建模方法 ,该方法无需大量的人工数据收集就能调整模型,使其行为安全 what ‍‍‍‍ RBRs ‍‍‍‍‍ 基本概念: 简单来说RBRs是一种用于训练AI模型安全行为的方法。它使用明确的规则来评估模型的输出是否符合安全标准 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 传统方法的局限性: 传统上,我们使用人类反馈来训练AI模型的安全行为。但这种方法效率低下,且难以适应不断变化的安全政策 paper: https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf RBRs的工作原理 原理 ‍‍‍‍‍ 定义一系列简单的命题,描述模型回应的理想或不理想特征 ‍ 根据这些命题创建规则 ‍ 使用这些规则评估模型的输出 ‍‍ 规则类别: RBRs定义了三种主要的模型行为类别: 硬拒绝:对非常有害的请求 软拒绝:对敏感 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览