文章预览
向AI转型的程序员都关注公众号 机器学习AI算法工程 Contents 数据 Data 微调 Fine-Tuning 推理 Inference 评估 Evaluation 体验 Usage 知识库 RAG 智能体 Agents 搜索 Search 书籍 Book 课程 Course 教程 Tutorial 论文 Paper Tips 资料获取地址 https://github.com/WangRongsheng/awesome-LLM-resourses?tab=readme-ov-file 数据 Data Note 此处命名为 数据 ,但这里并没有提供具体数据集,而是提供了处理获取大规模数据的方法 我们始终秉持授人以鱼不如授人以渔 AotoLabel: Label, clean and enrich text datasets with LLMs. LabelLLM: The Open-Source Data Annotation Platform. data-juicer: A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! OmniParser: a native Golang ETL streaming parser and transform library for CSV, JSON, XML, EDI, text, etc. MinerU: MinerU is a one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction. PDF-Ex
………………………………