专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

大模型文档理解前沿进展:StrucTexTv3及工程图纸理解评测基准DesignQA

老刘说NLP  · 公众号  ·  · 2024-06-04 11:41
    

文章预览

今天是2024年6月4日,星期二,北京,天气晴。 我们来看看文档理解前沿进展:StrucTexTv3及DesignQA常规任务,供大家一起参考并思考。 问题1:文档理解前沿进展:StrucTexTv3及DesignQA常规任务 我们可以开展StrucTexTv3模型, 《StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond》  (https://arxiv.org/pdf/2405.21013) 可以关注的是其中的训练数据: 一些常规的任务: 而除了卷长文档理解,还可以卷特定的场景文档,例如,《DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation》(https://arxiv.org/pdf/2404.07917),这个也很有意思,其介绍了一种名为DesignQA的新型基准,旨在评估多模态大型语言模型(MLLMs)在 理解和应用技术文档中工程要求的能力 。 DesignQA的地址在https://github.com/anniedoris/design_qa/。 该基准的开发专 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览