文章预览
今天是2024年8月9日,星期五,北京,天气晴。 本文主要讲2个话题,一个是回顾下昨日的大模型进展,其中, 老刘说NLP社区第28讲计划在本周日8-11晚进行,主题暂定为7月份月度总结及大模型做知识图谱查询sparql生成实践 ,感兴趣的可参加。 此外,也包括一些现有文档处理方面的工具的集合,最近的风向是出现了越来越多类似的同质化工具。 例如,有一个新的叫 MegaParse(https://github.com/QuivrHQ/MegaParse) ,支持 Text、PDF、PPT、Excel、CSV、Word。 主要是对Office类文件的解析,基于Pandas解析Excel,基于python-docx解析Word,基于python-pptx解析PPT。 结合Langchain进行文档加载、LlamaIndex-LlamaParse加强解析结果。 对PDF的解析,基于UnstructuredIO对非结构化的解析能力,结合LLM(在线LLMGPT-4o,离线LLM如lama3,对PDF扫描版等解析,基于多模态模型GPT-4o和Claude,把PDF解析为PNG再通
………………………………