主要观点总结
本文介绍了一期关于大模型安全对齐技术前沿的直播活动,直播嘉宾包括刘一秀(上海交通大学硕士生)和陈奕融(卡内基梅隆大学本科生)。直播将讨论大模型面临的安全风险,包括事实性对齐、检索增强对齐以及安全评估等内容。此外,嘉宾还将探讨超级智能的对齐和可扩展监督问题,分享关于大模型诚实性对齐工作的研究成果和对于诚实性问题的细致评估研究及发现。
关键观点总结
关键观点1: 直播主题
大模型安全对齐技术前沿
关键观点2: 直播嘉宾介绍
刘一秀,上海交通大学生成式人工智能团队硕士生;陈奕融,卡内基梅隆大学本科生,目前为上海交通大学生成式人工智能团队实习生。
关键观点3: 直播内容
讨论大模型面临的安全风险,介绍大模型对齐和安全评估的相关研究工作,包括事实性对齐、检索增强对齐等内容。
关键观点4: 超级智能的对齐和可扩展监督问题
探讨如何确保大模型的诚实性和安全性,降低潜在风险,并分享近期相关研究成果和发展方向。
文章预览
AI安全说 第7期 嘉宾在线解读 ✔️ 在线实时Q ✔️ 直播主题 大模型安全对齐技术前沿 直播嘉宾 刘一秀 上海交通大学硕士生 陈奕融 卡内基梅隆大学本科生 直播时间 2024年11日(周六) 19:30-21:00 观看方式 PaperWeekly视频号 PaperWeekly B站直播间 一键预约直播 ▼ 报告介绍 01 大模型对齐与安全评估 近年来,随着人工智能技术的快速发展,大模型对齐问题日益凸显。由于预训练目标函数与人类价值观的潜在偏差,使得大模型的安全性评估与人类价值观的对齐成为亟待解决的重要课题。 本次 talk 将聚焦大模型面临的安全风险,介绍上海交通大学生成式人工智能团队在大模型对齐和安全评估方面的相关研究工作,包括事实性对齐、检索增强对齐等,确保模型输出与真实信息对齐、与法律条文对齐。 接着,介绍安全评估、元评估相关内容
………………………………