专栏名称: OneFlow
不止于成为世界上最快的开源深度学习框架
目录
相关文章推荐
今天看啥  ›  专栏  ›  OneFlow

70B大模型训练秘方① :数据集创建与评估

OneFlow  · 公众号  ·  · 2024-08-28 09:03
    

文章预览

今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4o z ero-shot表现 (该模型未在这些基准上进行微调)。 Imbue的微调模型,基于2万亿个Token进行预训练,其性能也接近于在超过7倍数据量上预训练的Llama3 70B微调模型的性能。 由于他们在没有使用 思维链的情况下 评估了 GPT-4o zero-shot的性能,因此上文指出的性能表现并不代表它在这些数据集上能达到的最佳成绩。然而,这是与微调后的70B模型评估最直接的对比,这些评估同样不包括思维链。 通过使用他们提出的超参数优化器CARBS,他们在首次尝试时将该系统规模扩展到70B参数,同时保持训练过程中的最小不稳定性,并未出现损失激增的情况。这涉及到训练数千个密集型Transformer模型,具有分组查询注意力、SwiGLU激活、RMS归 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览