专栏名称: AIGC挖掘机
博主喜欢AI,Web3相关前沿内容,喜欢分享和折腾技术,也专注AI时代的创业与副业研究,目前在一线城市小厂工作,全干工程师,这里是他灵感的发源地,经常有一些奇思妙想。工作之余会分享一些相关的热门资讯,实践教程,稀缺资源。
目录
相关文章推荐
小众软件  ·  另外两件事[250130] ·  13 小时前  
APPSO  ·  多亏了这个 AI ... ·  4 天前  
今天看啥  ›  专栏  ›  AIGC挖掘机

用AI和阿里云FunASR实现视频语音识别和自动字幕脚本制作

AIGC挖掘机  · 公众号  ·  · 2024-07-22 22:53
    

主要观点总结

本文介绍了使用阿里云FunASR进行语音识别的过程,包括部署、服务端和客户端的使用,以及通过AI生成脚本进行语音识别来制作SRT字幕的方法。

关键观点总结

关键观点1: 部署过程

下载Docker镜像并创建模型文件夹,运行容器。部署过程中需要注意查看官方文档以了解具体的步骤和要求。

关键观点2: 服务端和客户端的使用

服务端运行较为复杂,可以通过查看程序进程来检查运行状态。客户端使用HTML进行测试,需要填写服务端地址并通过WebSocket上传文件。

关键观点3: AI生成脚本进行语音识别制作SRT字幕

介绍了一段通过AI生成的脚本,用于模拟HTML代码的功能进行语音识别,并将结果转换为SRT字幕格式。包括将JSON格式的识别结果转换为SRT字幕格式的函数和通过WebSocket发送音频文件并获取识别结果的异步函数。


文章预览

前言 我除了有个 AI 生成壁纸的计划,还有一个想法就是用 AI 剪视频,AI 剪视频当然是需要 AI 理解视频,最简单的就是理解视频中的字幕,之前写过文章介绍如何用 AI 来识别语音。今天就利用阿里云开源项目制作 FunASR 进行语音识别。 《阿里云Funasr语音识别大模型本地部署,效果远超OpenAI的Whisper》 《OpenAI 开源的语音自动识别大模型 Whisper 本地Docker部署》 部署 部署文档链接: https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md 这里是参考官方文档进行CPU 离线语音识别部署,先下载 Docker 镜像: sudo docker pull  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.5 然后创建模型文件夹,运行容器 mkdir -p ./funasr-runtime-resources/models sudo docker run -p 10095:10095 -it --privileged=true  -v $PWD/funasr-runtime-resources/models:/workspace/models registry.cn-hangzhou.ali ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览