专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

直播预告 | 南洋理工大学博士生邓岳:多语言环境下的大语言模型越狱挑战

PaperWeekly  · 公众号  · 科研  · 2024-10-18 12:36

文章预览

 AI安全说 第5期  嘉宾在线解读 ✔️ 在线实时Q ✔️  直播主题  多语言环境下的大语言模型越狱挑战  直播嘉宾  邓岳 新加坡南洋理工大学 博士生  直播时间  2024年10月19日(周六) 10:00-11:00  观看方式  PaperWeekly视频号 PaperWeekly B站直播间 一键预约直播 ▼  报告介绍  大语言模型(LLMs)在许多任务中展现了强大能力,但同时也带来了“越狱”问题,即恶意指令可操控模型产生不良行为。虽然已有多种防护措施被提出,但大多数仅限于英语场景。  本次 talk 将探讨 LLMs 在多语言环境中的越狱问题,揭示两类风险:无意风险与有意攻击。无意风险指用户在使用非英语提示时,意外绕过安全机制;有意攻击则是恶意用户通过结合多语言提示与恶意指令,故意攻击模型。 实验表明,在无意风险下,低资源语言的有害内容概率是高资源语言的三倍。此 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览