今天看啥  ›  专栏  ›  GitHubStore

数据飞轮:为大型语言模型(LLMs)提供高质量、大量数据的搜索、选择和合成

GitHubStore  · 公众号  ·  · 2024-09-09 08:37

文章预览

项目简介 我们致力于提供最佳参考,用于搜索、选择和合成高质量、大规模的数据,以便对LLMs进行后续训练 此仓库中有三项贡献: 数据生成:我们提供两个重要领域的数据生成过程:指令遵循和函数调用。 数据集编目:我们收集并编目了一组高质量的数据集,适用于LLMs在遵循指令、编程和数学领域的训练后使用。我们提供了对数据集的质量检查。 数据集整理:根据质量检查,我们精心整理了一个新的数据集用于LLMs的后续训练。这些数据集被仔细收集和评估,以确保高质量和相关性,适用于后续训练。 免责声明:尽管我们提供了以下的许可信息,但这些信息是从原始存储库获取的。然而,我们也注意到一些数据集虽然声称是开放的,但实际上使用了商业模型。因此,请在使用它们之前仔细检查,特别是如果你打算将它们用于商业用途或其他类 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览