文章预览
AI安全说 第9期 嘉宾在线解读 ✔️ 在线实时Q ✔️ 直播主题 大语言模型安全与对齐前沿进展 直播嘉宾 任麒冰 上海交通大学博士生 吉嘉铭 北京大学博士生 直播时间 2024年11月23日(周六) 20:00-21:00 观看方式 PaperWeekly视频号 PaperWeekly B站直播间 一键预约直播 ▼ 报告介绍 01 大语言模型安全和滥用风险探索 随着大语言模型(LLM)在现实世界的广泛部署和能力提升,开发安全可信的大模型的重要性也日益增加。即使 LLM 开发者应用了多样的安全措施,LLM 仍然可以被攻击者利用,表现出有害行为。 本次主题分为两部分,首先探索 LLM 安全“护栏”失效的内在机理,然后分享揭示 LLM 安全“漏洞”的两个攻击工作。 02 全模态大模型的高效对齐 基于人类反馈的强化学习技术(Reinforcement Learning from Human Feedback, RLHF)能有效提升大语言模型的
………………………………