专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM数据工程】LLMs-开源数据-微调数据集总结v2.0

AINLP  · 公众号  ·  · 2024-08-09 10:10

文章预览

【导读】:本文是 LLM数据工程 第二篇,介绍共40个开源的通用微调数据集,医疗领域微调数据集 。 【@】微调数据集目录 中文微调数据 【001】BelleGroup/train_3.5M_CN 【002】fnlp/moss-003-sft-data 【003】shibing624/alpaca-zh  【004】匠数科技deepctrl-sft-data 【005】YeungNLP/firefly-train-1.1M 【006】Chinese-Vicuna/guanaco_belle_merge_v1.0 【007】Chinese-Vicuna/instruct_chat_50k.jsonl 【008】BAAI/COIG 【008】BAAI/COIG-PC 【009】DA-southampton/RefGPT 【010】chatgpt 中文语料库 英文微调数据 【011】YeungNLP/ultrachat 【012】BAAI/Infinity-Instruct 【013】tatsu-lab/alpaca 【013】vicgalle/alpaca-gpt4 【014】HuggingFaceH4/ultrachat_200k 【015】ShareGPT-Chinese-English-90k  【016】YeungNLP/WizardLM_evol_instruct_V2_143k 【017】ShareGPT_Vicuna_unfiltered 【018】databricks/databricks-dolly-15k 【019】teknium/OpenHermes-2.5 【020】QingyiSi/Alpaca-CoT/Guanaco-Dataset 多语种微调数据 【 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览