主要观点总结
本文描述了使用GRPO方法训练模型学习阿毗达磨的过程,涉及了如何设计训练题目、模仿deepseek训练方式、对模型的理解和应对策略的调整,以及对于强化学习中奖励函数设计的重要性。文章还讨论了模型的表现拉胯的可能原因。
关键观点总结
关键观点1: 使用GRPO方法训练模型学习阿毗达磨
作者采用GRPO方法训练模型,通过设计特定格式的题目让模型学习阿毗达磨。最初效果不理想,经过调整奖励和惩罚机制,最终使模型理解并遵守格式规则。
关键观点2: 强化学习中的奖励函数设计
奖励函数在强化学习中起着关键作用。作者通过不断调整奖励和惩罚机制来引导模型的学习和输出,使模型能够逐渐理解和遵守格式规则。
关键观点3: 模型对奖励和惩罚的反应
模型可以通过奖励和惩罚的影响改变策略。作者发现,在调整奖励和惩罚机制后,模型能够迅速适应并改变其输出行为。
关键观点4: 阿毗达磨学习的挑战
当前AI在阿毗达磨问题上的表现不佳,可能原因在于模型的策略、训练数据的质量和算法的限制等。作者通过不断调整奖励函数和惩罚机制来尝试解决这个问题。
文章预览
我最近在用GRPO(群体相对策略优化)方法训练3B的模型学习阿毗达磨。我的题目是从《大毗婆沙论》等经典中挖掉一些关键词,让模型填空。 如果是盲填,模型当然不行,我就给它十来个备选项,所以算是选择题。我也仿照deepseek的训练方式,要求格式和答案两方面。一开始的效果很沮丧,模型不仅回答不出答案,连格式都搞不对。我很怀疑它是不是看不懂提示词。于是在系统提示词和用户提示词里再三示例。 发现它还学不会,我就只好降低标准,它的回答里格式半对甚至四分之一对,也给它激励。这样,过了两个小时,它终于开始摸到格式的边了。发现能靠瞎蒙格式得分。又跑了半小时,我发现这家伙已经完全放弃题目本身,不管你问什么,它都给你输出一堆格式,而且不是标准的格式。 我只好反其道而行之,让它再这样乱搞就罚它。它大概
………………………………