专栏名称: code秘密花园
这里有最前沿的前端技术、最新的前端消息、最精品的技术文章、最好用的工具推荐、还有一个有趣的作者。
今天看啥  ›  专栏  ›  code秘密花园

如何将领域文献转换为可供模型微调的数据集?

code秘密花园  · 公众号  ·  · 2025-03-13 08:30
    

文章预览

大家好,我是 ConardLi 本文为  想微调特定领域的 DeepSeek,数据集究竟要怎么搞? 对应的第一个实战章节,通过今天的文章,将带大家学习: 学会怎么找:了解一些获取公开数据集的途径和注意事项 学会怎么用:使用 Easy DataSet 工具批量构造领域数据集 学会怎么做:了解 Easy DataSet 的核心设计原理,你可以自己实现此类工具 一、获取公开数据集 很多情况下,如果你只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,是没必要自己去构造数据集的,因为目前互联网上存在着大量的公开且免费使用的数据集,下面就带大家来了解一下,常见的获取公开数据集的途径有哪些,以及对应的使用方法。 2.1 HuggingFace(🪜) HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览