文章预览
文/陈锋 编辑/子夜 想象一下,如果你置身于嘈杂的环境中,身边的朋友谁说了什么话,你能听得一清二楚吗? 答案很可能是否定的。 但这个普通人难以做到的事情,AI可以。 上个月,科大讯飞的讯飞星火大模型V4.0发布会上,三位讯飞研究院的研究员现场实测,在噪音环境下同时混叠说话时,正常人难以听清,但讯飞星火凭借其多模态能力,不但实现了三人重叠语音的角色分离,而且成功进行了实时转写。 这对应的是,针对强干扰场景下的语音识别难题,科大讯飞突破了多人混叠场景下的极复杂场景语音转写技术,即使在三人混叠说话场景下,也能实现86%的语音识别准确率。 科大讯飞的探索和技术成果,不止于此。 稍早一些的6月24日,2023年度国家科学技术奖励大会上,科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目,
………………………………