专栏名称: Hugging Face
The AI community building the future.
今天看啥  ›  专栏  ›  Hugging Face

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代,Llama3.1 仅微调可接近 GPT-4

Hugging Face  · 公众号  ·  · 2024-08-19 10:30
    

文章预览

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院推出了千万级指令微调数据集 Infinity Instruct。该数据集今年6月发布,近日完成了新一轮迭代,包括 Infinity-Instruct-7M 基础指令数据集和 Infinity-Instruct-Gen 对话指令数据集。 Infinity-Instruct-7M 包含 744 万条数学、代码、常识问答等领域的基础指令数据,用于进一步全面提升预训练模型的基础能力。Opencompass 测试结果显示,经过在 Infinity-Instruct-7M 数据集上的微调,Llama3.1-70B、Mistral-7B-v0.1 综合能力评价可基本对齐官方自己发布的对话模型,且 InfInstruct-7M-Mistral-7B 的综合评分超过了 GPT-3.5,InfInstruct-7M-Llama3.1-70B 已十分接近 GPT-4。 * 官方汇报结果 Infinity-Instruct-Gen 包含 149 万条合成的复杂指令,用于提升模型在各 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览