今天看啥  ›  专栏  ›  魔搭ModelScope社区

魔搭上新啦! 智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4

魔搭ModelScope社区  · 公众号  ·  · 2024-09-23 21:22

文章预览

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。Infinity Instruct在 Huggingface等平台发布后,快速到达了Huggingface Dataset的Trending第一,且吸引大量基于Infinity Instruct的开源微调工作。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity Instruct也终于正式在魔搭与大家见面。  数据集链接: https://modelscope.cn/datasets/BAAI/Infinity-Instruct Infinity-Instruct-7M包含744万条数学、代码、常识问答等领域的基础指令数据,用于进一步全面提升预训练模型的基础能力。Opencompass测试结果显示,经过在Infinity-Instruct-7M数据集上的微调,Llama3.1-70B、Mistral-7B-v0.1 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览