专栏名称: AIGC挖掘机

博主喜欢AI，Web3相关前沿内容，喜欢分享和折腾技术，也专注AI时代的创业与副业研究，目前在一线城市小厂工作，全干工程师，这里是他灵感的发源地，经常有一些奇思妙想。工作之余会分享一些相关的热门资讯，实践教程，稀缺资源。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

用AI和阿里云FunASR实现视频语音识别和自动字幕脚本制作

AIGC挖掘机 · 公众号 · · 2024-07-22 22:53

主要观点总结

本文介绍了使用阿里云FunASR进行语音识别的过程，包括部署、服务端和客户端的使用，以及通过AI生成脚本进行语音识别来制作SRT字幕的方法。

关键观点总结

关键观点1: 部署过程

下载Docker镜像并创建模型文件夹，运行容器。部署过程中需要注意查看官方文档以了解具体的步骤和要求。

关键观点2: 服务端和客户端的使用

服务端运行较为复杂，可以通过查看程序进程来检查运行状态。客户端使用HTML进行测试，需要填写服务端地址并通过WebSocket上传文件。

关键观点3: AI生成脚本进行语音识别制作SRT字幕

介绍了一段通过AI生成的脚本，用于模拟HTML代码的功能进行语音识别，并将结果转换为SRT字幕格式。包括将JSON格式的识别结果转换为SRT字幕格式的函数和通过WebSocket发送音频文件并获取识别结果的异步函数。

文章预览

前言我除了有个 AI 生成壁纸的计划，还有一个想法就是用 AI 剪视频，AI 剪视频当然是需要 AI 理解视频，最简单的就是理解视频中的字幕，之前写过文章介绍如何用 AI 来识别语音。今天就利用阿里云开源项目制作 FunASR 进行语音识别。《阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper》《OpenAI 开源的语音自动识别大模型 Whisper 本地Docker部署》部署部署文档链接： https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md 这里是参考官方文档进行CPU 离线语音识别部署，先下载 Docker 镜像： sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.5 然后创建模型文件夹，运行容器 mkdir -p ./funasr-runtime-resources/models sudo docker run -p 10095:10095 -it --privileged=true -v $PWD/funasr-runtime-resources/models:/workspace/models registry.cn-hangzhou.ali ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博