大模型+RPA的审计落地场景之AI帮你看单据

茶瓜子的休闲馆 · 公众号 · AI · 2024-09-03 08:25

主要观点总结

本文主要介绍了使用多模态模型对手写单据图片进行识别的场景。首先展示了出库单扫描件，并提到了手机扫描全能王的使用。接着介绍了影刀AP中支持的多模态大模型，包括OpenAI、清华智谱和Claude模型。文章强调了模型选择中的国产模型以减少数据出境风险。在日期识别场景中，这些模型表现出很高的准确性，即使存在干扰也能准确识别日期。此外，文章还展示了清华智谱模型在文字识别中的应用，并给出了示例。最后，文章介绍了如何使用影刀RPA批量处理文件，与AI结合完成识别任务，并提到了图片预处理的重要性。

关键观点总结

关键观点1: 使用多模态模型进行手写单据图片识别。

文章介绍了使用多模态模型来识别手写单据图片的步骤和使用的工具。

关键观点2: 模型选择及能力评估。

文章提到了三个多模态大模型：OpenAI、清华智谱和Claude，并强调了国产模型的优势，以及在日期识别和文字识别场景中的表现。

关键观点3: 影刀RPA的应用。

文章介绍了如何使用影刀RPA来自动化处理文件，与AI结合完成识别任务，包括获取文件路径、发送文件到AI应用和回写AI结果到Excel列中的步骤。

关键观点4: AI在自动化流程中的应用前景。

文章最后展望了随着AI能力的提高和成本的降低，越来越多简单且消耗人力的事可以使用AI来完成，特别是在自动化流程中的应用。

文章预览

点击上方蓝色字关注我们！上回我们详细介绍了AI分辨6+10的场景，使用的是纯文字模型，没看到的可以点击传送门：大模型+RPA的审计落地场景之6+10票据识别那么这次我们来使用多模态的模型对手写的单据图片进行识别吧首先看看我准备的出库单扫描件，手机扫描全能王直出：在出库日期上还有一个墨坨坨作为干扰再看下影刀AP中支持哪些多模态大模型，他们的能力如何：模型的选择上有3个，分别是OpenAI，清华智谱，Claude，其中有一个国产模型，好评，这样能减少数据出境的风险，可惜通义的多模态没进来能力上：在日期识别的场景中，3个模型都很准确，即使有个墨坨坨，依然能分辨出准确的日期是多少，如果是传统OCR的话，估计会多一个0或者8 那么除了识别日期外，再试试识别出库单中文字的场景：在文字的识别中，清华智谱基于中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【ShowUI：一个轻量级的视觉-语言-动作模型，专门用于GUI-20241130200301

3 天前

爱可可-爱生活 · 【Web2MD浏览器插件：一个简单实用的Chrome扩展工具，通-20241130200838

3 天前

爱可可-爱生活 · 【LLMs Interview Questions：收录了63个-20241130174421

3 天前

宝玉xp · 回复@geek007://@geek007:c#都不配上榜了么-20241129125905

5 天前

爱可可-爱生活 · 恭喜@潘老师要运动等5名用户获得【《AI群星闪耀时》】。微博官-20241129120243

5 天前

公考齐麟 · #练练就有效，你还不来参加吗#——下周一，开启新一期100天数资刷题组呀（内附电子版下载链接）

3 月前

十点读书 · 庄子：到了一定年纪，你终将不争、不辩、不计较

2 月前

黄建同学 · 开源的Llama语音项目，类似OpenAI的语音模式↓多模态 I-20241016164823

1 月前