文章预览
指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。Infinity Instruct在 Huggingface等平台发布后,快速到达了Huggingface Dataset的Trending第一,且吸引大量基于Infinity Instruct的开源微调工作。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity Instruct也终于正式在魔搭与大家见面。 数据集链接: https://modelscope.cn/datasets/BAAI/Infinity-Instruct Infinity-Instruct-7M包含744万条数学、代码、常识问答等领域的基础指令数据,用于进一步全面提升预训练模型的基础能力。Opencompass测试结果显示,经过在Infinity-Instruct-7M数据集上的微调,Llama3.1-70B、Mistral-7B-v0.1
………………………………