专栏名称: 悟乙己
比肩iPhone,技术的黄金时代
目录
相关文章推荐
今天看啥  ›  专栏  ›  悟乙己

Langchain-Chatchat如何自定义分词器(二)

悟乙己  · 知乎专栏  ·  · 2024-01-07 21:07
    

文章预览

对于 Langchain-Chatchat 这个开源项目,了解越多越让我纠结,结构很不错,可惜瑕疵也极多,虽然运维不易,但是很多文档或细节压根没写明白,或者他们的收费版写明白了,开源版就糊弄下? 对于这个开源项目如何使用自定义分词器,官方 wiki ,写的好像 有手就行 , 就一个小豆腐块篇幅; 可是细节全无,笔者看着chatchat封装的仨(ali_text_splitter、chinese_recursive_text_splitter),仍是一头雾水... 不卖关子了,笔者想要将 MarkdownHeaderTextSplitter 和 chatchat自己封装的 ChineseRecursiveTextSplitter 联合使用,markdown切分文档大框架,ChineseRecursiveText 再对大框架下的内容细致切分。 但是,chatchat对.md非常不友好(可参考: 悟乙己:Langchain-Chatchat开源库使用的随笔记(一) ),所以笔者下面自定义的函数会对原始文档进行一定更改。 如果你看明白如何写自定义,自 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览