文章预览
刚刚OpenAI 开发并应用了一种利用基于规则的奖励(RBRs)的 新型偏好建模方法 ,该方法无需大量的人工数据收集就能调整模型,使其行为安全 what RBRs 基本概念: 简单来说RBRs是一种用于训练AI模型安全行为的方法。它使用明确的规则来评估模型的输出是否符合安全标准 传统方法的局限性: 传统上,我们使用人类反馈来训练AI模型的安全行为。但这种方法效率低下,且难以适应不断变化的安全政策 paper: https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf RBRs的工作原理 原理 定义一系列简单的命题,描述模型回应的理想或不理想特征 根据这些命题创建规则 使用这些规则评估模型的输出 规则类别: RBRs定义了三种主要的模型行为类别: 硬拒绝:对非常有害的请求 软拒绝:对敏感
………………………………