专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

机器学习初学者  · 公众号  ·  · 2024-10-22 12:00

文章预览

来源:机器学习研究组订阅 就在昨天,某大厂模型训练遭入侵的事件,惊动了整个AI圈。 上图已针对敏感信息进行编辑 据悉,疑似有人对某大厂的集群代码持续发起恶意攻击,包括但不限于: 根据爆料,这次投毒主要是利用了Huggingface的「load ckpt」函数漏洞。 通过修改或注入恶意代码,模型加载时就会执行攻击者指定的操作,比如篡改模型权重、修改训练参数或截取模型数据,以及访问和修改其他用户的模型文件。 巧的是,就在今天,Anthropic也发表了一篇论文,研究前沿模型的破坏力评估。 如果AI模型试图误导人类,或者秘密破坏任务,它们能有多大的破坏力? 论文地址: https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations-for-Frontier-Models.pdf 研究者发现,模型的其中一种破坏能力,就是随着时间的推移在代码库中插入微妙的错误而不被 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览