牛逼了！AI 视觉模型运用在审计场景中

逆行的狗 · 公众号 · AI 科技自媒体 · 2025-02-24 23:05

主要观点总结

本文主要介绍了阿里开源的通义千问视觉模型在审计场景的应用。作者通过测试qwen2.5 vl模型，发现其对手写单据、票据的识别能力非常强大，可以准确提取相关信息，甚至能检查是否有对应签字或盖章。

关键观点总结

关键观点1: 通义千问视觉模型的强大功能

阿里开源的通义千问视觉模型具备强大的信息提取能力，能够准确识别手写单据和票据，并在审计场景中发挥重要作用。

关键观点2: qwen2.5 vl模型的表现

qwen2.5 vl模型在识别手写文字信息方面表现出色，能够准确提取回函结论中的手写文字信息，并且对于扭曲和有高光的图片也能很好提取信息。

关键观点3: 通义千问视觉模型在审计场景的应用

在审计场景中，通义千问视觉模型可以应用于细节测试内容，帮助检查助理肉眼难以识别的内容，如手写单据、票据的信息提取，甚至检查是否有盖章以及盖章的公司名称。

关键观点4: 开源模型的强大与低成本

现在的开源模型如qwen2.5-VL已经非常强大，且所需成本非常低，这在审计场景中是一个值得关注的点。有能力的事务所可以将之嵌入到实际审计系统中，提高审计效率。

文章预览

阿里开源的通义千问的视觉模型是非常牛逼的，在年前他又开源了 qwen2.5 vl 模型，对于 7b 的模型没有想到比之前又强大了非常多了。手写单据还是以每次我都会测试的银行询证函的回函信息来做测试：我用我的 macbook m3 max 128G 的本地跑 qwen2.5-vl-7b-instruct 模型：我直接提问：“请帮我提取出回函结论中，“信息不符，请列明不符项目及具体内容”单元格内的手写的文字信息。” 我把它回答的信息单独列出来： ❝ 截止2022.12.31我司显示贵司的应收账款余额为：21926049.64 2022年1-12月累计含税销售额为：252637245.85 ❞ 可以看到是完全准确的，之前使用2.0 版本的时候，7b 模型还不能完全把手写的数字搞准确。现在这种手写的居然全对了。要知道， 7b 的模型，在消费级显卡就可以跑起来！同样场景下，那些手写的签收单什么的，不都可以自动提取了吗？ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 必须收藏！DeepSeek的发展历程和对本地区可能产生的影响-20250301075207

19 小时前

宝玉xp · 转发微博-20250228224804

昨天

闽南日报 · 突然崩了！官方紧急回应

昨天

闽南日报 · 突然崩了！官方紧急回应

昨天

AI前线 · GPT-4.5 发布！OpenAI 史上最大最贵也可能是最慢那个，全网都在骂大街啦

昨天

Alibaba Cloud International · 刷新世界纪录！阿里云PolarDB凭借创新的「三层解耦」架构刷新TPC-C基准测试世界纪录

2 天前

Alibaba Cloud International · 刷新世界纪录！阿里云PolarDB凭借创新的「三层解耦」架构刷新TPC-C基准测试世界纪录

2 天前

海油发展微讯 · 产品“金钥匙”打开生产质效锁

9 月前

曾奇峰心理工作室 · 每一个梦境，都在提前告诉你答案

6 月前

雪球 · 【光伏概念股午后震荡反弹锦浪科技涨近10%】锦浪科技涨近10%-20240910134728

5 月前

三联生活周刊 · 跟着卡车“流浪”上万公里：渴望回家睡觉的3000万普通人

3 月前