专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

大模型文档理解前沿动向-细粒度多页文档理解:兼看文本切分组件semchunk

老刘说NLP  · 公众号  ·  · 2024-06-02 12:18
    

文章预览

今天是2024年6月2日,星期日,北京,天气晴。 我们来继续看看2个问题,一个是文档理解的另一个动向,关于细粒度多页文档理解,一个关于一个快速文档语义切分组件semchunk,是一些很好的思路,供大家一起参考。 会有一些思路,供大家一起参考,从实际落地的角度上跑出一些科学问题,会更踏实。 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 问题1:文档理解的一个动向:细粒度多页文档理解 说到文档理解,单页的稀疏的问答任务远远不够,所以当前一个新的主流方向是细粒度的单页/多页文档理解,这其实是比较贴合实际落地的做法。 最近看到一个工作,《Focus Anywhere for Fine-grained Multi-page Document Understanding》(https://arxiv.org/abs/2405.14295),不过目前模型没开源。 该工作的出发点在于,大型视觉语言模型(LVLMs)仍然难以实现对文档的细粒度理解,如对用户 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览