主要观点总结
国外一款能够读唇语的AI软件Readtheirlips近期受到关注。它可以分析视频中的嘴部动作,并将唇语转化为文本。实测显示,对于正脸对着镜头的视频,识别效果良好,但面对语速过快或脸部表情丰富的情况,识别会出现错误。开发团队Symphonic Labs表示会改进这些问题,并逐步提高上传视频的时长限制。
关键观点总结
关键观点1: Readtheirlips的功能和特点
能够读唇语的AI软件,通过视频中的嘴部动作分析,将唇语转化为文本。对于正脸对着镜头的视频识别效果好,但面对语速过快或脸部表情丰富的情况会出现识别错误。
关键观点2: Readtheirlips的识别效果限制
Readtheirlips识别视频的时间在一分钟左右,如果人物的正脸不能正对镜头,模型很难给出正确答案。目前支持的视频时长为3分钟以内。
关键观点3: 开发团队Symphonic Labs的回应
开发团队表示会研究解决当前存在的问题,并逐步提高上传视频的时长限制。
关键观点4: 工作原理
利用大量的标注数据对模型进行训练,通过面部检测识别嘴唇的位置,提取嘴唇的几何特征,然后与训练数据中的特征进行匹配,识别出视频中人物所说的内容。
文章预览
叨乐 发自 凹非寺 量子位 | 公众号 QbitAI 小心悄悄话被AI听见! (嘘) 最近国外一款可以 读唇语 的AI软件火了! 具体效果如下: 红毯上布莱克·莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但AI可以。 乍一看只能看见一排白牙 (bushi) 的侃爷,唇语也能被轻松破解。 看完后网友们开始纷纷评论,大开脑洞: 求“联名”型网友:快把它和Siri结合一下吧!这样我就不用像小傻子一样对着电脑大喊了! 测评型网友:我想用它试试“座机画质”的视频! 担心安全型网友:我有点害怕,我想戴口罩了。 (呜呜) 实测 Readtheirlips 效果如何 量子位整理了一些视频,为大家亲测了一下 Readtheirlips 的使用效果。 先试了一下奥特曼在斯坦福的访谈视频,把生成的文本和原始对话对照了一下,内容完美契合~ 而面对小表情比较多的 老马 ,Readtheirlip
………………………………