专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
湖北文旅  ·  2035,全面建成! ·  昨天  
湖北文旅  ·  2035,全面建成! ·  昨天  
今天看啥  ›  专栏  ›  GitHubStore

支持40种东方语言和22种汉语方言!清华大学开源自动语音识别模型Dolphin

GitHubStore  · 公众号  ·  · 2025-04-03 09:13
    

文章预览

项目简介 Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言、多任务语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时支持 22 种汉语方言。该模型在超过 210,000 小时的数据上进行训练,包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测(VAD)、分割和语言识别(LID)。 small版本与Whisper large v3相比,平均WER降低54.1%,模型大小只有Whisper large v3的约1/4  除了语音识别,还能进行语音活动检测、音频分割以及语言识别  目前开源了两个基础版本,一个base版,一个small版 方法 Dolphin 主要遵循 Whisper 和 OWSM 的创新设计方法。采用基于 E-Branchformer 的编码器和基于标准 Transformer 的解码器的联合 CTC-Attention 架构。针对 ASR 的特定关注,引入了几个关键修改。Dolphin 不支持翻译任务,并消除了对先前文本及 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览