专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

大模型面经:SFT和RL如何影响模型的泛化或记忆能力?

瓦力算法学研所  · 公众号  ·  · 2025-02-20 08:00
    

文章预览

技术总结专栏 作者:喜欢卷卷的瓦力 本篇分享SFT和RL在大模型训练中起到的作用。 监督微调 (SFT) 和强化学习 (RL)都是目前大模型的基础模型后训练技术,像DeepSeek-R1、kimi等的训练方法都将两种技术应用到了极致。 如何去设计训练步骤(先SFT再RL,还是直接RL)都需要对SFT和RL的能力有较深刻的了解。 本篇就以面经的形式,探讨SFT、RL两种不同的后训练范式在基于文本规则和视觉变体的情况下对模型记忆与泛化能力的作用。 下面是一个快捷目录。 一、SFT和RL分别对基座大模型的作用和影响是什么? 二、当模型包含视觉组件时,RL/SFT 如何影响其对不同视觉变体的泛化能力? 三、RL/SFT 如何影响视觉语言模型(VLM)中的视觉识别能力? 四、SFT 在 RL 训练中扮演什么角色? 五、验证迭代次数如何影响泛化能力   一、SFT和RL分别对基座大模型的作用和影响 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览