文章预览
发言人分离,顾名思义就是针对多人参与发言的音频,将不同发言人进行分离出来,标识出各个发言人在哪些时间范围内进行了讲话活动。做序列分解的伙伴可以了解下。推荐指数:5星。不足之处,还望批评指正。 一、应用背景介绍 发言人分离,顾名思义就是针对多人参与发言的音频,将不同发言人进行分离出来,标识出各个发言人在哪些时间范围内进行了讲话活动。 发言人分离是将一段音频内的多个发言人分离出来: 图:发言人分离 比如,KTV点男女合唱或团体歌时,字幕有区分不同歌手。使用腾讯会议或通义听悟,在回顾历史语音识别的内容时,也有发言人分离的结果。 图:通义听悟的发言人分离 被广泛使用的发言人分离开源项目pyannote.audio 2.1 [1],其发言人分离流程为: 1、短滑窗下的发言人分割(speaker segmentation); 2、发言人的特征表
………………………………