注册
登录
专栏名称:
深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
都市现场
·
热播剧原著小说被指抄袭,最新声明!
·
昨天
都市现场
·
热播剧原著小说被指抄袭,最新声明!
·
昨天
今天看啥
›
专栏
›
深度学习自然语言处理
揭秘LLMs不确定性背后的隐患:后门攻击的悄然兴起
深度学习自然语言处理
·
公众号
· · 2024-08-31 17:06
文章预览
论文:Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models 链接:https://arxiv.org/pdf/2407.11282 研究背景 研究问题 :这篇文章研究了大型语言模型(LLMs)在处理高 stakes 领域时的可靠性问题,特别是其不确定性估计的脆弱性及其潜在的攻击方法。 研究难点 :该问题的研究难点包括如何在不影响最终输出的情况下,通过特定的触发器操纵模型的不确定性。 相关工作 :该问题的研究相关工作包括提高LLMs不确定性估计的准确性、对抗性攻击方法(如基于梯度的攻击、人类参与的协作攻击等)以及对LLMs校准的研究。 研究方法 这篇论文提出了一种针对LLMs不确定性的简单但有效的后门攻击方法。具体来说, 1. 目标 :攻击者的目标是让被认为是校准良好的LLMs在输入中嵌入后门触发器后变得完全失准,即每个答案选择的预测概率区域平均化,同时保持原 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
都市现场
·
热播剧原著小说被指抄袭,最新声明!
昨天
都市现场
·
热播剧原著小说被指抄袭,最新声明!
昨天
太星小升初
·
来了!西城区发布2024年小学期末考时间安排,其他区情况是?
7 月前
莲妈读书
·
两种以上颜色抄笔记,孩子可能在“假努力”
5 月前
法治时报
·
痛心!女大学生失联12天后,遗体被找到
1 周前
天津日报
·
12345,办什么?谁来办?怎么办?
18 小时前