文章预览
大语言模型(LLMs)的出现彻底改变了自然语言处理领域,使其在从对话系统到科学探索的各个领域中变得不可或缺。然而,其预训练架构在特定场景中往往表现出局限性,包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型(Post-training Language Models, PoLMs)的发展,以应对这些不足,例如OpenAI-o1/o3和DeepSeek-R1(统称为大推理模型,Large Reasoning Models, LRMs)。 本文首次对PoLMs进行了全面综述,系统性地追溯了其在五大核心范式中的演变: 微调(Fine-tuning) ,用于提升任务特定准确性; 对齐(Alignment) ,确保伦理一致性与人类偏好的一致性; 推理(Reasoning) ,尽管奖励设计存在挑战,但仍推动多步推理的发展; 效率(Efficiency) ,在复杂性增加的背景下优化资源利用;以及 集成与适应(Integration and Adaptation
………………………………