专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

Unstructured专家分享RAG应用中文档分块(chunking)的最佳实践

AI工程化  · 公众号  ·  · 2024-07-18 22:29
    

文章预览

在之前的文章中,笔者在《 探秘大模型应用开发-有关chunking的方方面面 》中提到有关分块的内容,感兴趣的朋友可以阅读。近日,Maria Khalusova在Unstructured官方博客分享了有关分块的最佳实践。 Unstructured成立于2022年9月,致力于解决自然语言处理(NLP)和大型语言模型(LLM)应用中的数据预处理问题。公司总部位于美国,专注于将非结构化数据转化为LLM可以处理的格式,当下流行的pdf解析库就来自于它们,它们在数据预处理方面拥有非常前沿的技术和经验。 分块是文档处理的一个步骤,当各种格式的文档被解析变成文本文档后,接下来就需要对文档进行分块。而这一步骤也直接会影响到后期检索和模型推理总结的效果。这时候必然会带来一些常见的问题如:为什么要分块?最佳块大小是多少?拆分文本的最佳方法是什么?等等。  在这篇文章里, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览