专栏名称: 科普中国
公众科普,科学传播
今天看啥  ›  专栏  ›  科普中国

清华团队推出“安全增强版 DeepSeek”

科普中国  · 公众号  · 科学  · 2025-02-26 21:30
    

文章预览

2 月 23 日,清华大学计算机系相关研究团队宣布推出大语言模型 RealSafe-R1。 该模型基于 DeepSeek R1 进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。 近日来,国产开源大模型 DeepSeek 在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。 基于该方法,团队对 DeepSeek-R1 系列模型进行后训练,正式推出 RealSafe-R1 系列大模型。 实验数据表明,RealSafe-R1 安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览