专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

直播预告 | 上海交大 & 北京大学：大语言模型安全与对齐前沿进展

PaperWeekly · 公众号 · 科研 · 2024-11-20 13:05

文章预览

AI安全说第9期嘉宾在线解读 ✔️ 在线实时Q ✔️ 直播主题大语言模型安全与对齐前沿进展直播嘉宾任麒冰上海交通大学博士生吉嘉铭北京大学博士生直播时间 2024年11月23日（周六） 20:00-21:00 观看方式 PaperWeekly视频号 PaperWeekly B站直播间一键预约直播 ▼ 报告介绍 01 大语言模型安全和滥用风险探索随着大语言模型（LLM）在现实世界的广泛部署和能力提升，开发安全可信的大模型的重要性也日益增加。即使 LLM 开发者应用了多样的安全措施，LLM 仍然可以被攻击者利用，表现出有害行为。本次主题分为两部分，首先探索 LLM 安全“护栏”失效的内在机理，然后分享揭示 LLM 安全“漏洞”的两个攻击工作。 02 全模态大模型的高效对齐基于人类反馈的强化学习技术（Reinforcement Learning from Human Feedback, RLHF）能有效提升大语言模型的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博