大模型训练遭投毒损失千万美元？Anthropic惊人发现：LLM植入炸弹，代码库暗藏bug！

机器学习研究组订阅 · 公众号 · AI · 2024-10-19 20:34

文章预览

就在昨天，某大厂模型训练遭入侵的事件，惊动了整个AI圈。上图已针对敏感信息进行编辑据悉，疑似有人对某大厂的集群代码持续发起恶意攻击，包括但不限于：根据爆料，这次投毒主要是利用了Huggingface的「load ckpt」函数漏洞。通过修改或注入恶意代码，模型加载时就会执行攻击者指定的操作，比如篡改模型权重、修改训练参数或截取模型数据，以及访问和修改其他用户的模型文件。巧的是，就在今天，Anthropic也发表了一篇论文，研究前沿模型的破坏力评估。如果AI模型试图误导人类，或者秘密破坏任务，它们能有多大的破坏力？论文地址：https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations-for-Frontier-Models.pdf 研究者发现，模型的其中一种破坏能力，就是随着时间的推移在代码库中插入微妙的错误而不被发现。结合最近的热门事件 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

2 天前

宝玉xp · 推荐阅读：《AI贴纸生成网站 StickerBaker 的SEO-20241122080930

3 天前

爱可可-爱生活 · 【M2DGR-Benchmark：基于M2DGR和M2DGR-p-20241120131808

5 天前

黄建同学 · #谷歌聊天机器人竟回复称人类去死吧##ai# 确实有这个回复，一-20241119135326

6 天前

黄建同学 · 前两天ProductHunt 上的一款无代码开发应用Momen，-20241119073702

6 天前

广西华图 · 教育系统招65人！年薪50000，同工同酬

3 月前

AI合规圈 · 人民法院报：虚拟货币司法处置须规范化

2 月前

医谷 · 第十批国家药品集采开始报量，62个品种，263个规格

1 月前