文章预览
大型语言模型(LLMs)在材料科学和工程等领域的应用进步依赖于微调策略的发展,这些策略能够使模型适应专业化、技术化的能力。在本项工作中,我们探索了持续预训练(Continued Pretraining, CPT)、监督式微调(Supervised Fine-Tuning, SFT)以及基于偏好的优化方法,包括直接偏好优化(Direct Preference Optimization, DPO)和赔率比偏好优化(Odds Ratio Preference Optimization, ORPO),对微调后LLM性能的影响。我们的分析显示了这些策略如何影响模型结果,并揭示了多个微调模型的合并可以导致能力的出现,这些能力超越了原始模型的单独贡献。我们发现模型合并不仅仅是一个聚合过程,而是一种变革性的方法,可以通过模型参数之间的高度非线性相互作用来推动模型能力的显著提升,从而在特定领域的评估中提高性能。我们研究了影响模型合并成功的关键因素,如父
………………………………