主要观点总结
本文记录了作者在将端侧AI agent升级为voice mode LLM过程中的突破和进一步改进的想法。文章主要讨论了全双工功能、体验瓶颈、function calling以及延时等问题。
关键观点总结
关键观点1: 背景介绍
作者在升级AI agent到voice mode LLM时,在断网环境下将延时降低到了毫秒级,并在此基础上有更多改进和突破的想法。
关键观点2: 全双工功能
虽然实现了低延时的语音AI,但作者提到目前尚未实现全双工功能,即同时接收和发送语音。全双工功能对于模型的听和说过程的互相耦合很重要,特别是在人的正常交互中涉及打断和插入语的情况下。
关键观点3: 体验瓶颈
作者指出了语音AI的实际体验瓶颈,包括always on需要的抗干扰能力,function calling带来的额外延时抵消方法等问题。作者提到了希望模型能够分辨语境,不加入不属于它的对话,以及在团队会议中扮演合理的角色等需求。
关键观点4: 其他挑战
文章还提到了其他挑战,如声音与摄像头结合的嘴唇、肢体等信息的使用,以及langchain在语音模式中的调用等。作者认为,最好的机会可能在于技术成熟与用户体验设计的同时进步。
文章预览
Recurrent Ideas: Voice Bottleneck 背景 我们在把自己的端侧AI agent升级成voice mode LLM的过程中有了比较长足的突破, 在断网的环境下,延时降低到了毫秒级。 测试了几天后,我们有了更多进一步改进和突破的想法。 本文档用以记录这些思考,来自eating our own dog food的思考。 以下视频是这个非常1.0版本的端侧语音AI agent和公司里一群小伙伴们的实况对话: 延时和全双工 我们使用的是可以直接接受语音模态离散token的大语言模型,通过adapter的方法训练进去的,在计算量不增加(甚至有点减少)的情况下,实现了大语言模型的全部知识保留。所以我们可以轻松地实现同声传译等所有大模型擅长的功能,而且延时很低。 但是有一点我们是没做到的,全双工。 全双工指的是能同时接收和发送语音,这可以让模型的听和说成为一个互相耦合的过程。人与人的正常交
………………………………