文章预览
AMD 10月31日发布了其首个1亿参数语言模型系列——AMD OLMo,旨在推动可访问 AI 研究并赋能多样化的用户、开发者和研究社区。我们一起来了解这个模型有何独到之处。 模型设计与训练 模型架构与训练过程 AMD OLMo 系列包括三个主要模型: AMD OLMo 1B :在 Dolma v1.7 子集上预训练。 AMD OLMo 1B SFT :在 Tulu V2 和OpenHermes-2.5 、WebInstructSub 、Code-Feedback 数据集上进行监督微调。 AMD OLMo 1B SFT DPO :使用 Direct Preference Optimization(DPO)在 UltraFeedback 数据集上进行对齐。 数据与训练配方 AMD OLMo 的训练分为三个阶段: 预训练 :使用 Dolma v1.7 子集中的 1.3 万亿个 token 。 监督微调(SFT) :分两阶段进行,首先在 TuluV2 上,然后在更大的数据集(包括 OpenHermes 2.5 、Code-Feedback 和WebInstructSub)上进行。 对齐 :使用 DPO 在UltraFeedback 数据集上进行。 性能表现与效率 基准测试结果
………………………………