专栏名称: dotNET跨平台
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,Linux 主流平台
今天看啥  ›  专栏  ›  dotNET跨平台

VLM-OCR-Demo:一个使用VLM用于OCR任务的示例

dotNET跨平台  · 公众号  · 科技自媒体  · 2024-12-10 08:30
    

主要观点总结

本文介绍了使用Semantic Kernel接入视觉模型进行OCR任务的实践和效果。文章首先概述了构建类似TesseractOCR-GUI界面的想法和目的,然后详细描述了测试过程、效果、使用方法和开发工具的介绍。重点介绍了如何使用SemanticKernel接入大语言模型到应用中,包括核心代码的解释。

关键观点总结

关键观点1: 使用Semantic Kernel接入视觉模型进行OCR任务

文章介绍了一种新的OCR任务实践,通过使用Semantic Kernel接入视觉模型,提高了识别的效果。作者通过测试图片展示了识别的效果,并提供了普通用户和使用WPF/C#程序员的详细使用指南。

关键观点2: 效果和测试

作者在文章中展示了使用不同图片进行OCR识别的效果,并提到了在使用VLM做任务时的缺点和存在的问题,例如幻觉识别,但也表示可以通过调整模型来改善效果。

关键观点3: 使用方法和GitHub地址

作者提供了详细的软件使用指南,包括下载解压后的文件位置、配置VLM的API Key的方法、打开软件的方式等。同时提供了GitHub地址供读者下载所需文件。

关键观点4: 开发工具和核心代码

文章介绍了开发所需工具为Visual Studio 2022和.NET 8,并详细解释了核心代码的执行流程,包括创建Kernel、接入大语言模型、处理图像等部分。

关键观点5: 对新手程序员的价值

作者认为这个项目对WPF/C#新手程序员可以作为一个简单的练手小项目,通过实践可以学习和掌握相关技术和知识。


文章预览

前言 上一篇文章 TesseractOCR-GUI:基于WPF/C#构建TesseractOCR简单易用的用户界面 中我们构建了一个方便使用TesseractOCR的用户界面,今天构建一个类似的界面,使用Semantic Kernel接入视觉模型,测试一下用视觉模型做OCR任务的效果。在之前的文章 使用Tesseract进行图片文字识别 的总结中说了使用VLM做这个任务的缺点,经过测试之后,发现确实存在。 效果 在进行下一步之前,先大概了解一下效果。 测试图片1: 查看效果: image-20241209102333915 测试图片2: 查看效果: image-20241209102431184 在写好提示词的情况下,识别的效果还不错。 但是还是不免会出现幻觉: image-20241209102824355 需要自己调整到效果最好的模型。 普通用户使用 跟之前的软件一样,我已经在GitHub发布了压缩包,点击下载,然后解压即可。 GitHub地址:https://github.com/Ming-jiayou/VLM-OCR-Demo image-202412091032230 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览