注册登录

专栏名称: AI寒武纪

Attention Is All You Need

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

星嘉坡眼 · 新加坡的年货市场有哪些好逛的？ · 7 小时前

星嘉坡眼 · 万态步行道免费开放啦！与小动物近距离接触，徒 ... · 7 小时前

星嘉坡眼 · 700年来的第一人：一个潮汕女子的传奇逆袭 · 昨天

星嘉坡眼 · 亚洲航空节、光电博览会、亚洲海事展...一大 ... · 昨天

今天看啥 › 专栏 › AI寒武纪

OpenAI 推出全新技术RBRs：无需大量人工数据的AI安全新方法

AI寒武纪 · 公众号 · · 2024-07-25 07:42

文章预览

刚刚OpenAI 开发并应用了一种利用基于规则的奖励（RBRs）的新型偏好建模方法，该方法无需大量的人工数据收集就能调整模型，使其行为安全 what ‍‍‍‍ RBRs ‍‍‍‍‍ 基本概念: 简单来说RBRs是一种用于训练AI模型安全行为的方法。它使用明确的规则来评估模型的输出是否符合安全标准 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 传统方法的局限性: 传统上,我们使用人类反馈来训练AI模型的安全行为。但这种方法效率低下,且难以适应不断变化的安全政策 paper： https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf RBRs的工作原理原理 ‍‍‍‍‍ 定义一系列简单的命题,描述模型回应的理想或不理想特征 ‍ 根据这些命题创建规则 ‍ 使用这些规则评估模型的输出 ‍‍ 规则类别: RBRs定义了三种主要的模型行为类别: 硬拒绝:对非常有害的请求软拒绝:对敏感 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

星嘉坡眼 · 新加坡的年货市场有哪些好逛的？

7 小时前

星嘉坡眼 · 万态步行道免费开放啦！与小动物近距离接触，徒步骑车走起~

7 小时前

星嘉坡眼 · 700年来的第一人：一个潮汕女子的传奇逆袭

昨天

星嘉坡眼 · 亚洲航空节、光电博览会、亚洲海事展...一大波展会来新加坡了！

昨天

青云说说 · 青云早学习7/25，人际关系表面上是和别人相处，背后却是和每个人的欲望和防御机制相处。

5 月前

波段之门 · 昨天的遗憾

3 月前

君姐深扒股市 · 重磅：A股“2024收益12.67%！

2 周前

安徽省发展改革委 · 以“重中之重”助力高质量发展——2025年全省第一批重大项目开工（宿州篇）

6 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号