专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
今天看啥  ›  专栏  ›  宝玉xp

经常用 OpenAI Whisper 将音频转录成文本的可能都被-20241028144813

宝玉xp  · 微博  · AI  · 2024-10-28 14:48

文章预览

2024-10-28 14:48 本条微博链接 经常用 OpenAI Whisper 将音频转录成文本的可能都被坑过,经常会无端生成一些没有的内容,比如“字幕翻译”、“赌场”、“感谢”之类的,这是由于模型训练时,很多视频的字幕在结尾或中间穿插一些广告或鸣谢,影响了训练的准确性。所以通常在用 Whisper 的时候,需要做VAD(voice activity detection),只选取有人发声音的部分音频调用 Whisper 转录,转录完再重新对应原始时间轴。 现在 Whisper 幻觉 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览