一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

揭秘LLMs不确定性背后的隐患:后门攻击的悄然兴起

深度学习自然语言处理  · 公众号  ·  · 2024-08-31 17:06
    

文章预览

论文:Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models 链接:https://arxiv.org/pdf/2407.11282 研究背景 研究问题 :这篇文章研究了大型语言模型(LLMs)在处理高 stakes 领域时的可靠性问题,特别是其不确定性估计的脆弱性及其潜在的攻击方法。 研究难点 :该问题的研究难点包括如何在不影响最终输出的情况下,通过特定的触发器操纵模型的不确定性。 相关工作 :该问题的研究相关工作包括提高LLMs不确定性估计的准确性、对抗性攻击方法(如基于梯度的攻击、人类参与的协作攻击等)以及对LLMs校准的研究。 研究方法 这篇论文提出了一种针对LLMs不确定性的简单但有效的后门攻击方法。具体来说, 1. 目标 :攻击者的目标是让被认为是校准良好的LLMs在输入中嵌入后门触发器后变得完全失准,即每个答案选择的预测概率区域平均化,同时保持原 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览