主要观点总结
本文介绍了使用阿里云FunASR进行语音识别的过程,包括部署、服务端和客户端的使用,以及通过AI生成脚本进行语音识别来制作SRT字幕的方法。
关键观点总结
关键观点1: 部署过程
下载Docker镜像并创建模型文件夹,运行容器。部署过程中需要注意查看官方文档以了解具体的步骤和要求。
关键观点2: 服务端和客户端的使用
服务端运行较为复杂,可以通过查看程序进程来检查运行状态。客户端使用HTML进行测试,需要填写服务端地址并通过WebSocket上传文件。
关键观点3: AI生成脚本进行语音识别制作SRT字幕
介绍了一段通过AI生成的脚本,用于模拟HTML代码的功能进行语音识别,并将结果转换为SRT字幕格式。包括将JSON格式的识别结果转换为SRT字幕格式的函数和通过WebSocket发送音频文件并获取识别结果的异步函数。
文章预览
前言 我除了有个 AI 生成壁纸的计划,还有一个想法就是用 AI 剪视频,AI 剪视频当然是需要 AI 理解视频,最简单的就是理解视频中的字幕,之前写过文章介绍如何用 AI 来识别语音。今天就利用阿里云开源项目制作 FunASR 进行语音识别。 《阿里云Funasr语音识别大模型本地部署,效果远超OpenAI的Whisper》 《OpenAI 开源的语音自动识别大模型 Whisper 本地Docker部署》 部署 部署文档链接: https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md 这里是参考官方文档进行CPU 离线语音识别部署,先下载 Docker 镜像: sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.5 然后创建模型文件夹,运行容器 mkdir -p ./funasr-runtime-resources/models sudo docker run -p 10095:10095 -it --privileged=true -v $PWD/funasr-runtime-resources/models:/workspace/models registry.cn-hangzhou.ali
………………………………