专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

直播预告 | 上海交大刘鹏飞老师团队：大模型安全对齐技术前沿

PaperWeekly · 公众号 · 科研 · 2024-11-01 19:43

主要观点总结

本文介绍了一期关于大模型安全对齐技术前沿的直播活动，直播嘉宾包括刘一秀（上海交通大学硕士生）和陈奕融（卡内基梅隆大学本科生）。直播将讨论大模型面临的安全风险，包括事实性对齐、检索增强对齐以及安全评估等内容。此外，嘉宾还将探讨超级智能的对齐和可扩展监督问题，分享关于大模型诚实性对齐工作的研究成果和对于诚实性问题的细致评估研究及发现。

关键观点总结

关键观点1: 直播主题

大模型安全对齐技术前沿

关键观点2: 直播嘉宾介绍

刘一秀，上海交通大学生成式人工智能团队硕士生；陈奕融，卡内基梅隆大学本科生，目前为上海交通大学生成式人工智能团队实习生。

关键观点3: 直播内容

讨论大模型面临的安全风险，介绍大模型对齐和安全评估的相关研究工作，包括事实性对齐、检索增强对齐等内容。

关键观点4: 超级智能的对齐和可扩展监督问题

探讨如何确保大模型的诚实性和安全性，降低潜在风险，并分享近期相关研究成果和发展方向。

文章预览

AI安全说第7期嘉宾在线解读 ✔️ 在线实时Q ✔️ 直播主题大模型安全对齐技术前沿直播嘉宾刘一秀上海交通大学硕士生陈奕融卡内基梅隆大学本科生直播时间 2024年11日（周六） 19:30-21:00 观看方式 PaperWeekly视频号 PaperWeekly B站直播间一键预约直播 ▼ 报告介绍 01 大模型对齐与安全评估近年来，随着人工智能技术的快速发展，大模型对齐问题日益凸显。由于预训练目标函数与人类价值观的潜在偏差，使得大模型的安全性评估与人类价值观的对齐成为亟待解决的重要课题。本次 talk 将聚焦大模型面临的安全风险，介绍上海交通大学生成式人工智能团队在大模型对齐和安全评估方面的相关研究工作，包括事实性对齐、检索增强对齐等，确保模型输出与真实信息对齐、与法律条文对齐。接着，介绍安全评估、元评估相关内容 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博