文章预览
【导读】:本文是 LLM数据工程 第二篇,介绍共40个开源的通用微调数据集,医疗领域微调数据集 。 【@】微调数据集目录 中文微调数据 【001】BelleGroup/train_3.5M_CN 【002】fnlp/moss-003-sft-data 【003】shibing624/alpaca-zh 【004】匠数科技deepctrl-sft-data 【005】YeungNLP/firefly-train-1.1M 【006】Chinese-Vicuna/guanaco_belle_merge_v1.0 【007】Chinese-Vicuna/instruct_chat_50k.jsonl 【008】BAAI/COIG 【008】BAAI/COIG-PC 【009】DA-southampton/RefGPT 【010】chatgpt 中文语料库 英文微调数据 【011】YeungNLP/ultrachat 【012】BAAI/Infinity-Instruct 【013】tatsu-lab/alpaca 【013】vicgalle/alpaca-gpt4 【014】HuggingFaceH4/ultrachat_200k 【015】ShareGPT-Chinese-English-90k 【016】YeungNLP/WizardLM_evol_instruct_V2_143k 【017】ShareGPT_Vicuna_unfiltered 【018】databricks/databricks-dolly-15k 【019】teknium/OpenHermes-2.5 【020】QingyiSi/Alpaca-CoT/Guanaco-Dataset 多语种微调数据 【
………………………………