专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

大模型的数据合成与增强技术总结:兼看文档版式分析及RAG今年进展

老刘说NLP  · 公众号  ·  · 2024-10-19 12:08
    

文章预览

今天是2024年10月19日,星期六,北京,天气晴。 我们来看2个话题,回顾文档智能版式分析及RAG上的今年进展、并看大模型的数据合成与增强综述。 供大家一起参考并思考。 一、文档版式分析及RAG今年进展 回顾下今年的两个工作: ‍ ‍ ‍ ‍ 一个是文档智能进展,团队的版式分析地址更新, 变至https://github.com/360AILABNLP/360LayoutAnalysis 在文档版式分析中,精细化的标注非常有必要,其中:段落的标注尤其关键,因为它直接影响到文本的语义理解和信息提取。当前,在版式分析领域,据我们了解,在论文场景中,以往的开源数据集如:CDLA(A Chinese document layout analysis),缺乏对段落信息的标注;在研报场景中的版式分析模型还相对空缺。 因此,为了解决这一问题,我们通过人工标注的方式对论文文档进行细粒度标签改造以及数据优化,并构建起研报 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览