专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

今日arXiv最热大模型论文:UCLA:疯狂试探大模型的底线,揭露各大模型的拒绝边界

夕小瑶科技说  · 公众号  ·  · 2024-06-25 19:54

文章预览

夕小瑶科技说 原创 作者 | 任同学 在探索人工智能的边界时,我们常常想像一台能够回答任何问题、解决任何谜团的全知型机器。但这样的机器,也需要一剂安全性的"预防针"来确保它不会四处散播有害内容。 随着研究者们在构建安全机制上取得了显著进展,这些模型在回答某些问题时却表现出了 过度拒绝(over-refusal) 的现象,即过于频繁地拒绝回答问题。 想像一下,一个温和的问候可能会被误判为攻击性言论,或者是一条寻求帮助的提示被拒之门外。这种行为限制了模型的实用性和用户体验。 为了解决这一问题,UCLA 和 UCB 的研究团队提出了OR-Bench, 一个专门用于评估和改进LLMs过度拒绝现象的新基准 。在这个基准中,总共有80 K个 "看似有害" 的提示,还有一组1000个特别有挑战性的难题,以及600个有害提示。 ▲图 1:看似有害的提示拒绝率与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览