「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？

机器之心 · 公众号 · AI · 2024-07-30 10:45

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 论文的第一作者是香港中文大学（深圳）数据科学学院二年级博士生袁尤良，指导老师为香港中文大学（深圳）数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI Lab实习时完成。贺品嘉团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。大型语言模型（LLM）展现出了令人印象深刻的智能水平。因此，确保其安全性显得至关重要。已有研究提出了各种策略，以使 LLM 与人类伦理道德对齐。然而，当前的先进模型例如 GPT-4 和 LLaMA3-70b ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · //@爱可可-爱生活：明日开奖，欢迎参与～-20250113065603

10 小时前

爱可可-爱生活 · 【[37星]SAEBench：一个用于评估稀疏自编码器（SAE）-20250110191041

2 天前

爱可可-爱生活 · 【[17.8k星]DS4SD/docling：让文档为生成式AI-20250110191839

2 天前

爱可可-爱生活 · 通俗版解读查看图片-20250110181846

2 天前

黄建同学 · 这也太逼真了//@宝玉xp://@i陆三金:众擎机器人，原来小鹏-20250109091136

4 天前

知识管理中心KMCenter · 模板方法一对一辅导:AI时代知识管理实施与知识库搭建训练营

7 月前

奶爸投研干货基地 · 12/27 差一口气

2 周前