专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NICE32期 | 迈向可信的AI：探索安全、负责的大语言模型

深度学习自然语言处理 · 公众号 · · 2024-11-05 23:03

文章预览

主题迈向可信的AI：探索安全、负责的大语言模型时间 2024.11.7 20:00-21:00 周四入群内容论文1 ：MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability （NeurIPS 2024) 链接：https://arxiv.org/pdf/2405.14488 单位：哈工大、度小满论文2： Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning 链接：https://arxiv.org/pdf/2410.04524 单位：哈工大、港中文引言随着大语言模型的广泛应用，对抗攻击与防御成为了研究领域中的一个重要课题。对抗攻击指的是通过精心设计的输入，诱导模型生成错误或有害的输出，进而影响模型的正常行为。尽管一些模型经过RLHF与人类价值观进行对齐，但模型（如Llama）仍然很容易遭受到越狱攻击。为了应对这些威胁，目前的研究已经提出一些防御策略，如解码时令牌概率的重构、输入的预处理和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博