专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

科学家将状态空间模型引入语音分离领域,能自动从视频中分离不同人物对白

DeepTech深科技  · 公众号  · 科技媒体  · 2024-06-12 14:57
    

文章预览

据介绍,当前最新发布的状态空间模型模型比如 Mamba,具备以线性计算复杂度建立长程依赖关系的优势,非常适合高效处理长序列的任务。 尽管 Mamba 在自然语言处理和计算机视觉等领域已经展现了良好的效果,但在语音分离领域其潜力尚未被充分挖掘。 据了解,基于卷积神经网络 CNN,Convolutional Neural Networks)的语音分离模型,受限于其局部感受野,限制了其捕获音频信号全部上下文的能力,从而影响了分离性能。 而基于 Transformer 的模型虽然能够很好地建模长期依赖关系,但其自注意力机制相对于序列长度有平方级的复杂度,导致其在实时应用中计算成本很高。 总的来说,现有的 CNN、循环神经网络(RNN,Recurrent Neural Network)和 Transformer 方法在计算效率和捕获时间依赖性方面各有优缺点。 基于此,清华大学团队提出了一种新的语音分离模型架构 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览