专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

揭秘LLMs不确定性背后的隐患：后门攻击的悄然兴起

深度学习自然语言处理 · 公众号 · · 2024-08-31 17:06

文章预览

论文：Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models 链接：https://arxiv.org/pdf/2407.11282 研究背景研究问题：这篇文章研究了大型语言模型（LLMs）在处理高 stakes 领域时的可靠性问题，特别是其不确定性估计的脆弱性及其潜在的攻击方法。研究难点：该问题的研究难点包括如何在不影响最终输出的情况下，通过特定的触发器操纵模型的不确定性。相关工作：该问题的研究相关工作包括提高LLMs不确定性估计的准确性、对抗性攻击方法（如基于梯度的攻击、人类参与的协作攻击等）以及对LLMs校准的研究。研究方法这篇论文提出了一种针对LLMs不确定性的简单但有效的后门攻击方法。具体来说， 1. 目标：攻击者的目标是让被认为是校准良好的LLMs在输入中嵌入后门触发器后变得完全失准，即每个答案选择的预测概率区域平均化，同时保持原 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博