主要观点总结
本文主要介绍了使用多模态模型对手写单据图片进行识别的场景。首先展示了出库单扫描件,并提到了手机扫描全能王的使用。接着介绍了影刀AP中支持的多模态大模型,包括OpenAI、清华智谱和Claude模型。文章强调了模型选择中的国产模型以减少数据出境风险。在日期识别场景中,这些模型表现出很高的准确性,即使存在干扰也能准确识别日期。此外,文章还展示了清华智谱模型在文字识别中的应用,并给出了示例。最后,文章介绍了如何使用影刀RPA批量处理文件,与AI结合完成识别任务,并提到了图片预处理的重要性。
关键观点总结
关键观点1: 使用多模态模型进行手写单据图片识别。
文章介绍了使用多模态模型来识别手写单据图片的步骤和使用的工具。
关键观点2: 模型选择及能力评估。
文章提到了三个多模态大模型:OpenAI、清华智谱和Claude,并强调了国产模型的优势,以及在日期识别和文字识别场景中的表现。
关键观点3: 影刀RPA的应用。
文章介绍了如何使用影刀RPA来自动化处理文件,与AI结合完成识别任务,包括获取文件路径、发送文件到AI应用和回写AI结果到Excel列中的步骤。
关键观点4: AI在自动化流程中的应用前景。
文章最后展望了随着AI能力的提高和成本的降低,越来越多简单且消耗人力的事可以使用AI来完成,特别是在自动化流程中的应用。
文章预览
点击上方蓝色字关注我们! 上回我们详细介绍了AI分辨6+10的场景,使用的是纯文字模型,没看到的可以点击传送门: 大模型+RPA的审计落地场景之6+10票据识别 那么这次我们来使用多模态的模型对手写的单据图片进行识别吧 首先看看我准备的出库单扫描件,手机扫描全能王直出: 在出库日期上还有一个墨坨坨作为干扰 再看下影刀AP中支持哪些多模态大模型,他们的能力如何: 模型的选择上有3个,分别是OpenAI,清华智谱,Claude,其中有一个国产模型,好评,这样能减少数据出境的风险,可惜通义的多模态没进来 能力上: 在日期识别的场景中,3个模型都很准确, 即使有个墨坨坨,依然能分辨出准确的日期是多少 ,如果是传统OCR的话,估计会多一个0或者8 那么除了识别日期外,再试试识别出库单中文字的场景: 在 文字的识别中, 清华智谱 基于中
………………………………