专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
今天看啥  ›  专栏  ›  PaperWeekly

直播预告 | 上海交大 & 北京大学:大语言模型安全与对齐前沿进展

PaperWeekly  · 公众号  · 科研  · 2024-11-20 13:05
    

文章预览

 AI安全说 第9期  嘉宾在线解读 ✔️ 在线实时Q ✔️  直播主题  大语言模型安全与对齐前沿进展  直播嘉宾  任麒冰 上海交通大学博士生 吉嘉铭 北京大学博士生  直播时间  2024年11月23日(周六) 20:00-21:00  观看方式  PaperWeekly视频号 PaperWeekly B站直播间 一键预约直播 ▼  报告介绍  01 大语言模型安全和滥用风险探索 随着大语言模型(LLM)在现实世界的广泛部署和能力提升,开发安全可信的大模型的重要性也日益增加。即使 LLM 开发者应用了多样的安全措施,LLM 仍然可以被攻击者利用,表现出有害行为。 本次主题分为两部分,首先探索 LLM 安全“护栏”失效的内在机理,然后分享揭示 LLM 安全“漏洞”的两个攻击工作。 02 全模态大模型的高效对齐 基于人类反馈的强化学习技术(Reinforcement Learning from Human Feedback, RLHF)能有效提升大语言模型的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览