GigaSpeech 2：三万小时东南亚多语种语音识别开源数据集发布

魔搭ModelScope社区 · 公众号 · · 2024-06-26 10:20

文章预览

“Giga”一词源于“gigantic”，互联网上具有海量音频资源，但语音质量良莠不齐，高质量音频文本对数据十分稀缺且标注成本高昂，特别是在小语种领域。GigaSpeech 是一个非常成功的英文开源数据集，以 YouTube 和 Podcast 为音频来源，提供了上万小时的高质量文本标注语音数据集，获得了广泛关注和应用。针对多语言领域仍存在的语音识别性能较差、可用高质量标注数据缺乏等问题，我们提出了利用 in-the-wild 无标注音频，构建高质量大规模语音识别数据集的新范式，制作出面向真实场景的大规模、多领域、多语言的语音识别数据集 GigaSpeech 2。基于Gigaspeech 2 数据集训练的语音识别模型在三个东南亚语种（泰语、印尼语、越南语）上达到了媲美商业语音识别服务的性能。我们怀揣着技术应当普惠大众的理念，致力于开源高质量语音识别数据集和模型， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

BioArt · Nat Commun | 陈春龙课题组开发机器学习算法揭示癌症进展中的DNA复制时序动态异质性

昨天

生信宝典 · 专家点评Cell | 植物如何精准识别“敌友”？王二涛团队建立植物特异区分共生与病原微生物的分子信号框架

2 天前

生物制品圈 · 新型疫苗篇 | 艾滋病疫苗研发：科学挑战与创新策略

2 天前

生物学霸 · 生命科学联合中心招聘科研秘书

2 天前

生信人 · 前沿技术热点：三代测序技术助力表观基因组学研究

3 天前

财经杂志 · 天合光能加码储能，自研电芯晚不晚

7 月前

直播海南 · 4岁男童在万绿园玩耍被钉子划伤，家长质疑管理方失职并索赔8千元！各方回应→

1 月前