文章预览
项目简介 这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术,可以在不到10分钟内转录300分钟(5小时)的音频。作者提供了几种优化方式,包括批处理、半精度处理以及BetterTransformer,以提高转录速度。最终,作者以实际测试数据展示了不同优化方式的速度对比。同时,还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。 基本上你需要做的就是这样: import torch from transformers import pipeline pipe = pipeline( "automatic-speech-recognition" , "openai/whisper-large-v2" , torch_dtype=torch.float16, device= "cuda:0" ) pipe.model = pipe.model.to_bettertransformer() outputs = pipe( " " , chunk_length_s=30, batch_siz
………………………………