主要观点总结
本文主要介绍了阿里开源的通义千问视觉模型在审计场景的应用。作者通过测试qwen2.5 vl模型,发现其对手写单据、票据的识别能力非常强大,可以准确提取相关信息,甚至能检查是否有对应签字或盖章。
关键观点总结
关键观点1: 通义千问视觉模型的强大功能
阿里开源的通义千问视觉模型具备强大的信息提取能力,能够准确识别手写单据和票据,并在审计场景中发挥重要作用。
关键观点2: qwen2.5 vl模型的表现
qwen2.5 vl模型在识别手写文字信息方面表现出色,能够准确提取回函结论中的手写文字信息,并且对于扭曲和有高光的图片也能很好提取信息。
关键观点3: 通义千问视觉模型在审计场景的应用
在审计场景中,通义千问视觉模型可以应用于细节测试内容,帮助检查助理肉眼难以识别的内容,如手写单据、票据的信息提取,甚至检查是否有盖章以及盖章的公司名称。
关键观点4: 开源模型的强大与低成本
现在的开源模型如qwen2.5-VL已经非常强大,且所需成本非常低,这在审计场景中是一个值得关注的点。有能力的事务所可以将之嵌入到实际审计系统中,提高审计效率。
文章预览
阿里开源的通义千问的视觉模型是非常牛逼的, 在年前他又开源了 qwen2.5 vl 模型,对于 7b 的模型没有想到比之前又强大了非常多了。 手写单据 还是以每次我都会测试的银行询证函的回函信息来做测试: 我用我的 macbook m3 max 128G 的本地跑 qwen2.5-vl-7b-instruct 模型: 我直接提问:“请帮我提取出回函结论中,“信息不符,请列明不符项目及具体内容”单元格内的手写的文字信息。” 我把它回答的信息单独列出来: ❝ 截止2022.12.31我司显示贵司的应收账款余额为:21926049.64 2022年1-12月累计含税销售额为:252637245.85 ❞ 可以看到是完全准确的,之前使用2.0 版本的时候,7b 模型还不能完全把手写的数字搞准确。 现在这种手写的居然全对了。 要知道, 7b 的模型,在消费级显卡就可以跑起来! 同样场景下,那些手写的签收单什么的,不都可以自动提取了吗?
………………………………