强化学习成帮凶，对抗攻击LLM有了新方法

机器之心 · 公众号 · AI · 2025-03-06 20:23

文章预览

机器之心报道编辑：Panda 事物都有多面性，正如水，既能载舟，亦能覆舟，还能煮粥。强化学习也是如此。它既能帮助 AlphaGo 击败顶级围棋棋手，还能帮助 DeepSeek-R1 获得强大的推理能力，但它也可能被恶意使用，成为攻击 AI 模型的得力武器。近日，威斯康星大学麦迪逊分校的一个研究团队发现，可以通过强化学习对模型实施有效的黑盒逃避攻击（Black-Box Evasion Attacks）。研究团队表示：「从安全角度来看，这项工作展示了一种强大的新攻击媒介，即使用强化学习来有效且大规模地攻击机器学习模型。」论文标题：Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning 论文地址：https://arxiv.org/pdf/2503.01734 下面我们就来简单看看这项研究。首先，为什么要研究如何攻击模型？答案自然是为了安全。现在 AI 发展迅猛，各种应用层出不穷，并且已经 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博