主要观点总结
本文介绍了几种持续获取相关账户信息和样片的方法,包括使用pytesseract、CnOCR、PaddleOCR等工具进行文字识别,以及实战应用。文章提供了相关工具的详细介绍、核心源码和使用方法。
关键观点总结
关键观点1: 介绍文章主题和背景
文章主要介绍了如何持续获取相关账户信息和样片的方法,包括使用不同的工具和库进行文字识别。
关键观点2: pytesseract的使用
文章介绍了使用pytesseract进行文字识别的过程,包括下载客户端、安装依赖等步骤,并提供了核心源码。
关键观点3: CnOCR的介绍和使用
文章介绍了CnOCR这一基于PyTorch的OCR工具包,包括安装和使用方法,并提供了核心源码。
关键观点4: PaddleOCR的介绍和使用
文章介绍了PaddleOCR这一深度学习框架PaddlePaddle下的OCR工具集,包括安装和使用方法,并提供了核心源码。
关键观点5: 实战应用
文章介绍了以某音为例的实战应用,包括配置坐标、筛选关键字、喜欢阈值等,并提供了数据写入本地和模拟刷视频的动作的逻辑。
文章预览
这是「进击的Coder」的第 935 篇技术分享 作者:星安果 来源:AirPython “ 阅读本文大概需要 12 分钟。 ” 做视频剪辑的同学都知道,搜索对标账号和样片是相当耗时的,一般我们通过关键字检索可以获取少量账号和视频素材,并且短时间检索的数据是相同的,因此没法持续获取数据 那么,如何持续获取相关账户信息和样片呢? 以某音为例,我们只需要前期针对账号做一些特定的训练,后期推荐的大部分内容都是我们想要的数据;然后模拟刷视频的动作,通过 OCR 截取视频相关的信息(视频标题、时长、喜欢量等)进行过滤,最后通过点击复制链接按钮,将视频信息写入到本地即可 本篇文章将聊聊常见可行的方案 1、 pytesseract 借助 pyautogui 和 pytesseract,可以先对屏幕进行截图,然后利用 pytesseract 进行文字识别 首先,下载 pytesseract 客户端,安
………………………………