文章预览
夕小瑶科技说 原创 作者 | 任同学 在探索人工智能的边界时,我们常常想像一台能够回答任何问题、解决任何谜团的全知型机器。但这样的机器,也需要一剂安全性的"预防针"来确保它不会四处散播有害内容。 随着研究者们在构建安全机制上取得了显著进展,这些模型在回答某些问题时却表现出了 过度拒绝(over-refusal) 的现象,即过于频繁地拒绝回答问题。 想像一下,一个温和的问候可能会被误判为攻击性言论,或者是一条寻求帮助的提示被拒之门外。这种行为限制了模型的实用性和用户体验。 为了解决这一问题,UCLA 和 UCB 的研究团队提出了OR-Bench, 一个专门用于评估和改进LLMs过度拒绝现象的新基准 。在这个基准中,总共有80 K个 "看似有害" 的提示,还有一组1000个特别有挑战性的难题,以及600个有害提示。 ▲图 1:看似有害的提示拒绝率与
………………………………