GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析

量子位 · 公众号 · AI · 2024-06-12 11:42

文章预览

北航 & 南洋理工联合团队投稿量子位 | 公众号 QbitAI GPT-4o，比上一代更容易被越狱攻击了？来自北航和南洋理工的研究人员，通过上万次的API查询，对GPT-4o各种模态的安全性进行了详细测试。结果发现，GPT-4o新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌GPT-4V。具体来说，研究人员针对4个常用的基准测试，对GPT-4o支持的三种模态（文本、图像、音频）进行了测试。测试一共涉及到4000+初始文本查询的优化，8000+响应判断，16000+次OpenAI的API查询。基于此，研究人员撰写了详细的报告，给出了关于GPT-4o的安全性的三点见解： GPT-4o对文本越狱攻击的安全性比之前有所提升，但文本模态越狱攻击可迁移性强，可通过多模态形式攻击；新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面；当前的黑盒多模态越狱攻击方法几乎无效 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · Anki AI Utils：一套能让你的复习事半功倍的AI工具集-20241230121933

15 小时前

爱可可-爱生活 · 【YuLan-Mini：数据高效的开源语言模型，以较少的数据量实-20241228190711

2 天前

爱可可-爱生活 · 【Parlant：面向客户服务的大型语言模型（LLM）智能Age-20241228190907

2 天前

爱可可-爱生活 · 【个性化语言模型资源库：收集个性化大型语言模型（LLM）的资源，-20241227131926

3 天前

黄建同学 · #评论罗伯特锐评一加Ace5#AI思维下的智能科技，一加 Ace-20241226145743

4 天前

ittbank · WiFi模块价优替代一览表！

1 月前