一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

NICE32期 | 迈向可信的AI:探索安全、负责的大语言模型

深度学习自然语言处理  · 公众号  ·  · 2024-11-05 23:03

文章预览

主题 迈向可信的AI:探索安全、负责的大语言模型   时间 2024.11.7 20:00-21:00 周四 入群 内容 论文1 :MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability (NeurIPS 2024) 链接 :https://arxiv.org/pdf/2405.14488 单位 :哈工大、度小满 论文2: Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning 链接 :https://arxiv.org/pdf/2410.04524 单位 :哈工大、港中文 引言 随着大语言模型的广泛应用,对抗攻击与防御成为了研究领域中的一个重要课题。 对抗攻击指的是通过精心设计的输入,诱导模型生成错误或有害的输出,进而影响模型的正常行为。 尽管一些模型经过RLHF与人类价值观进行对齐,但模型(如Llama)仍然很容易遭受到越狱攻击。 为了应对这些威胁,目前的研究已经提出一些防御策略,如解码时令牌概率的重构、输入的预处理和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览