论文解读:《函数调用的阴暗面：破解大型语言模型的途径》

ChaMd5安全团队 · 公众号 · · 2024-09-09 08:02

文章预览

招新小广告CTF组诚招re、crypto、pwn、misc、合约方向的师傅,长期招新IOT+Car+工控+样本分析多个组招人有意向的师傅请联系邮箱 admin@chamd5.org(带上简历和想加入的小组) 本篇原论文《The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models》这篇论文探讨了大型语言模型（LLM）中的函数调用功能的安全性问题，并提出了一个新的“越狱函数”攻击方法。该方法利用了对齐差异、用户胁迫和缺乏严格安全过滤的问题。实验结果表明，在六种最先进的LLM中，包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro等，这种攻击的成功率平均超过90％。作者分析了为什么函数调用容易受到此类攻击的影响，并提出了防御策略，包括使用防御提示。这些发现强调了增强LLM函数调用能力的安全措施的迫切需要，为AI安全性领域提供了新的风险识别、有效攻击方法设计和实际防御 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

壹心理 · 有奖征集|写给做过心理咨询的你

昨天

壹心理 · 想成为执业心理咨询师，这4个坑千万别踩

昨天

武志红 · 一个人心理健康的表现：脸皮越来越厚

2 天前

壹心理 · 我，32岁，靠心理学重养自己后，成功开启自由职业

2 天前

简单心理 · 你真的了解存在-人本主义吗？

3 天前

X-MOL资讯 · 【能源】高安全性长寿命钠离子电池

10 月前

历史大学堂 · 俗语“有福之人两腿毛，无福之人毛两腿”，是什么意思？有道理吗

9 月前

医麦客 · 远泰生物携手多方发布mRNA-LNP标准，加速免疫治疗新纪元

6 月前

桦爸聊升学 · 广东春季高考志愿填报讲座20250218（一）

2 月前

山东省交通运输厅 · 智慧用电、新材料应用……济南至东阿高速建设忙

1 月前