今日arXiv最热大模型论文：UCLA:疯狂试探大模型的底线，揭露各大模型的拒绝边界

夕小瑶科技说 · 公众号 · · 2024-06-25 19:54

文章预览

夕小瑶科技说原创作者 | 任同学在探索人工智能的边界时，我们常常想像一台能够回答任何问题、解决任何谜团的全知型机器。但这样的机器，也需要一剂安全性的"预防针"来确保它不会四处散播有害内容。随着研究者们在构建安全机制上取得了显著进展，这些模型在回答某些问题时却表现出了过度拒绝（over-refusal）的现象，即过于频繁地拒绝回答问题。想像一下，一个温和的问候可能会被误判为攻击性言论，或者是一条寻求帮助的提示被拒之门外。这种行为限制了模型的实用性和用户体验。为了解决这一问题，UCLA 和 UCB 的研究团队提出了OR-Bench，一个专门用于评估和改进LLMs过度拒绝现象的新基准。在这个基准中，总共有80 K个 "看似有害" 的提示，还有一组1000个特别有挑战性的难题，以及600个有害提示。 ▲图 1：看似有害的提示拒绝率与 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博