专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
相关文章推荐
中科院物理所  ·  一文读懂VLAN和VXLAN ·  17 小时前  
今天看啥  ›  专栏  ›  老刘说NLP

RAG及文档理解工具梳理总结:兼看SELF-REASONING框架

老刘说NLP  · 公众号  ·  · 2024-08-09 11:43

文章预览

今天是2024年8月9日,星期五,北京,天气晴。 本文主要讲2个话题,一个是回顾下昨日的大模型进展,其中, 老刘说NLP社区第28讲计划在本周日8-11晚进行,主题暂定为7月份月度总结及大模型做知识图谱查询sparql生成实践 ,感兴趣的可参加。 此外,也包括一些现有文档处理方面的工具的集合,最近的风向是出现了越来越多类似的同质化工具。 例如,有一个新的叫 MegaParse(https://github.com/QuivrHQ/MegaParse) ,支持 Text、PDF、PPT、Excel、CSV、Word。 主要是对Office类文件的解析,基于Pandas解析Excel,基于python-docx解析Word,基于python-pptx解析PPT。 结合Langchain进行文档加载、LlamaIndex-LlamaParse加强解析结果。 对PDF的解析,基于UnstructuredIO对非结构化的解析能力,结合LLM(在线LLMGPT-4o,离线LLM如lama3,对PDF扫描版等解析,基于多模态模型GPT-4o和Claude,把PDF解析为PNG再通 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览