清华团队推出“安全增强版 DeepSeek”

科普中国 · 公众号 · 科学 · 2025-02-26 21:30

文章预览

2 月 23 日，清华大学计算机系相关研究团队宣布推出大语言模型 RealSafe-R1。该模型基于 DeepSeek R1 进行深度优化与后训练，在确保性能稳定的基础上，显著提升了安全性，为开源大模型的安全发展与风险治理提供了创新性解决方案。近日来，国产开源大模型 DeepSeek 在自然语言处理和多任务推理方面展现了强大的技术实力，但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此，清华团队提出了基于模型自我提升的安全对齐方式，将安全对齐与内省推理相结合，使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险，实现基础模型自身能力的自主进化。基于该方法，团队对 DeepSeek-R1 系列模型进行后训练，正式推出 RealSafe-R1 系列大模型。实验数据表明，RealSafe-R1 安全性提升显著，在多个基准测试中有效增强了对各种越狱攻击的抵抗 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

原理 · 你认识它，但你知道它也认识你吗？

12 小时前

果壳 · 马斯克的 AI 司机 vs. 中国三轮车大爷——谁才是“路权王者”？

13 小时前

果壳 · 这些几十块钱的好东西，没想到当妈之后那么需要！第4个一眼种草

昨天

科学网 · 2025年研考国家线发布

2 天前

科普中国 · 这只 6900 万年前的鸟，和鸭鹅啥关系？

3 天前

大联大工程师社区 · 找方案 | 英飞凌推出65W超高功率密度电源CYPAP212A1-14SXI+CYPAS212A1-32LQXQ方案

8 月前

酱油哥张夫子 · 《哪吒》哪里是神话，简直就是当代中青年的生存寓言

3 周前