社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

Hugging Face · 公众号 · · 2024-08-19 10:30

文章预览

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题，智源研究院推出了千万级指令微调数据集 Infinity Instruct。该数据集今年6月发布，近日完成了新一轮迭代，包括 Infinity-Instruct-7M 基础指令数据集和 Infinity-Instruct-Gen 对话指令数据集。 Infinity-Instruct-7M 包含 744 万条数学、代码、常识问答等领域的基础指令数据，用于进一步全面提升预训练模型的基础能力。Opencompass 测试结果显示，经过在 Infinity-Instruct-7M 数据集上的微调，Llama3.1-70B、Mistral-7B-v0.1 综合能力评价可基本对齐官方自己发布的对话模型，且 InfInstruct-7M-Mistral-7B 的综合评分超过了 GPT-3.5，InfInstruct-7M-Llama3.1-70B 已十分接近 GPT-4。 * 官方汇报结果 Infinity-Instruct-Gen 包含 149 万条合成的复杂指令，用于提升模型在各 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博