专栏名称: 进击的Coder
崔庆才的个人公众号,分享有关网络爬虫、Web开发、机器学习、技术心得、时事新闻、个人感悟等内容。
今天看啥  ›  专栏  ›  进击的Coder

抖音探宝:如何用 OCR 自动化寻找最佳短视频,解放双手!

进击的Coder  · 公众号  · 科技自媒体  · 2024-06-28 21:48
    

主要观点总结

本文介绍了几种持续获取相关账户信息和样片的方法,包括使用pytesseract、CnOCR、PaddleOCR等工具进行文字识别,以及实战应用。文章提供了相关工具的详细介绍、核心源码和使用方法。

关键观点总结

关键观点1: 介绍文章主题和背景

文章主要介绍了如何持续获取相关账户信息和样片的方法,包括使用不同的工具和库进行文字识别。

关键观点2: pytesseract的使用

文章介绍了使用pytesseract进行文字识别的过程,包括下载客户端、安装依赖等步骤,并提供了核心源码。

关键观点3: CnOCR的介绍和使用

文章介绍了CnOCR这一基于PyTorch的OCR工具包,包括安装和使用方法,并提供了核心源码。

关键观点4: PaddleOCR的介绍和使用

文章介绍了PaddleOCR这一深度学习框架PaddlePaddle下的OCR工具集,包括安装和使用方法,并提供了核心源码。

关键观点5: 实战应用

文章介绍了以某音为例的实战应用,包括配置坐标、筛选关键字、喜欢阈值等,并提供了数据写入本地和模拟刷视频的动作的逻辑。


文章预览

这是「进击的Coder」的第 935  篇技术分享 作者:星安果 来源:AirPython “ 阅读本文大概需要 12 分钟。 ” 做视频剪辑的同学都知道,搜索对标账号和样片是相当耗时的,一般我们通过关键字检索可以获取少量账号和视频素材,并且短时间检索的数据是相同的,因此没法持续获取数据 那么,如何持续获取相关账户信息和样片呢? 以某音为例,我们只需要前期针对账号做一些特定的训练,后期推荐的大部分内容都是我们想要的数据;然后模拟刷视频的动作,通过 OCR 截取视频相关的信息(视频标题、时长、喜欢量等)进行过滤,最后通过点击复制链接按钮,将视频信息写入到本地即可 本篇文章将聊聊常见可行的方案 1、 pytesseract 借助 pyautogui 和 pytesseract,可以先对屏幕进行截图,然后利用 pytesseract 进行文字识别 首先,下载 pytesseract 客户端,安 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览