什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知 · 公众号 · · 2025-03-12 11:00

文章预览

大语言模型（LLMs）的出现彻底改变了自然语言处理领域，使其在从对话系统到科学探索的各个领域中变得不可或缺。然而，其预训练架构在特定场景中往往表现出局限性，包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型（Post-training Language Models, PoLMs）的发展，以应对这些不足，例如OpenAI-o1/o3和DeepSeek-R1（统称为大推理模型，Large Reasoning Models, LRMs）。本文首次对PoLMs进行了全面综述，系统性地追溯了其在五大核心范式中的演变：微调（Fine-tuning），用于提升任务特定准确性；对齐（Alignment），确保伦理一致性与人类偏好的一致性；推理（Reasoning），尽管奖励设计存在挑战，但仍推动多步推理的发展；效率（Efficiency），在复杂性增加的背景下优化资源利用；以及集成与适应（Integration and Adaptation ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博