专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
今天看啥  ›  专栏  ›  专知

什么是后训练?大语言模型训练后优化方法综述,87页pdf

专知  · 公众号  ·  · 2025-03-12 11:00
    

文章预览

大语言模型(LLMs)的出现彻底改变了自然语言处理领域,使其在从对话系统到科学探索的各个领域中变得不可或缺。然而,其预训练架构在特定场景中往往表现出局限性,包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型(Post-training Language Models, PoLMs)的发展,以应对这些不足,例如OpenAI-o1/o3和DeepSeek-R1(统称为大推理模型,Large Reasoning Models, LRMs)。 本文首次对PoLMs进行了全面综述,系统性地追溯了其在五大核心范式中的演变: 微调(Fine-tuning) ,用于提升任务特定准确性; 对齐(Alignment) ,确保伦理一致性与人类偏好的一致性; 推理(Reasoning) ,尽管奖励设计存在挑战,但仍推动多步推理的发展; 效率(Efficiency) ,在复杂性增加的背景下优化资源利用;以及 集成与适应(Integration and Adaptation ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览