今天看啥  ›  专栏  ›  机器之心

强化学习成帮凶,对抗攻击LLM有了新方法

机器之心  · 公众号  · AI  · 2025-03-06 20:23
    

文章预览

机器之心报道 编辑:Panda 事物都有多面性,正如水,既能载舟,亦能覆舟,还能煮粥。强化学习也是如此。它既能帮助 AlphaGo 击败顶级围棋棋手,还能帮助 DeepSeek-R1 获得强大的推理能力,但它也可能被恶意使用,成为攻击 AI 模型的得力武器。 近日,威斯康星大学麦迪逊分校的一个研究团队发现,可以通过强化学习对模型实施有效的黑盒逃避攻击(Black-Box Evasion Attacks)。研究团队表示:「从安全角度来看,这项工作展示了一种强大的新攻击媒介,即使用强化学习来有效且大规模地攻击机器学习模型。」 论文标题:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning 论文地址:https://arxiv.org/pdf/2503.01734 下面我们就来简单看看这项研究。 首先,为什么要研究如何攻击模型?答案自然是为了安全。 现在 AI 发展迅猛,各种应用层出不穷,并且已经 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览