文章预览
主题 迈向可信的AI:探索安全、负责的大语言模型 时间 2024.11.7 20:00-21:00 周四 入群 内容 论文1 :MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability (NeurIPS 2024) 链接 :https://arxiv.org/pdf/2405.14488 单位 :哈工大、度小满 论文2: Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning 链接 :https://arxiv.org/pdf/2410.04524 单位 :哈工大、港中文 引言 随着大语言模型的广泛应用,对抗攻击与防御成为了研究领域中的一个重要课题。 对抗攻击指的是通过精心设计的输入,诱导模型生成错误或有害的输出,进而影响模型的正常行为。 尽管一些模型经过RLHF与人类价值观进行对齐,但模型(如Llama)仍然很容易遭受到越狱攻击。 为了应对这些威胁,目前的研究已经提出一些防御策略,如解码时令牌概率的重构、输入的预处理和
………………………………