专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
今天看啥  ›  专栏  ›  我爱计算机视觉

华科&华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”,解析长文档多模态数据能力 SOTA

我爱计算机视觉  · 公众号  ·  · 2024-10-13 10:10
    

文章预览

关注公众号,发现CV技术之美 2024年10月,华中科技大学白翔团队与华为研究人员合作,推出了基于 国产芯片 的多模态文档大模型PDF-WuKong。 这一创新成果针对复杂多页PDF文档问答场景,提出了两项关键技术:端到端稀疏采样机制和多页PDF问答高质量数据生成方法。这些技术突破使得输入长度有限的多模态大模型能够有效处理理论上无限长的PDF文档,实现深度理解和精准问答。 PDF-WuKong不仅解决了现有多模态大模型难以处理长PDF文档的技术难题,其性能还超越了多个知名的国际闭源商业产品,该成果展示了国产芯片在支持复杂大模型应用方面的实力。 论文链接:https://arxiv.org/abs/2410.05970 代码地址:https://github.com/yh-hust/PDF-Wukong 研究背景 在大模型技术快速发展的今天,处理复杂的多页PDF文档仍然是一个重大挑战。学术文献、技术报告等长篇PDF文档通常 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览