文章预览
对于 Langchain-Chatchat 这个开源项目,了解越多越让我纠结,结构很不错,可惜瑕疵也极多,虽然运维不易,但是很多文档或细节压根没写明白,或者他们的收费版写明白了,开源版就糊弄下? 对于这个开源项目如何使用自定义分词器,官方 wiki ,写的好像 有手就行 , 就一个小豆腐块篇幅; 可是细节全无,笔者看着chatchat封装的仨(ali_text_splitter、chinese_recursive_text_splitter),仍是一头雾水... 不卖关子了,笔者想要将 MarkdownHeaderTextSplitter 和 chatchat自己封装的 ChineseRecursiveTextSplitter 联合使用,markdown切分文档大框架,ChineseRecursiveText 再对大框架下的内容细致切分。 但是,chatchat对.md非常不友好(可参考: 悟乙己:Langchain-Chatchat开源库使用的随笔记(一) ),所以笔者下面自定义的函数会对原始文档进行一定更改。 如果你看明白如何写自定义,自
………………………………