主要观点总结
本文主要介绍了昆仑万维开发的Skyo实时语音对话助手,该助手具备快速响应、情感化反应、真实内容互动和个性化声音定制等功能,并基于大模型技术实现更复杂的语境应对和个性化任务执行。文章还提到了语音交互场景的AI具备的感知能力,以及Skyo的一些实测表现和功能特点。同时,文章也提到了现阶段语音交互AI的通病和挑战,以及昆仑万维未来的布局和发力方向。
关键观点总结
关键观点1: Skyo实时语音对话助手是昆仑万维的新产品,基于大模型技术打造。
Skyo具备多样化的功能,如快速响应、情感化反应等,能够应对更复杂的语境和个性化任务。
关键观点2: 语音交互场景的AI具备前所未有的感知能力,能够降低响应延迟并准确读懂用户情感。
目前一些对标GPT-4o的产品如谷歌Gemini Live等仍存在一定短板,如可用性、流畅性等。
关键观点3: Skyo实测表现良好,能够应对用户打断场景,并展现出拟人化属性。
Skyo能够理解用户情绪并给出准确反馈,还具备一定的实时资讯获知和知识拓展能力。
关键观点4: Scaling Law放缓对大模型开发造成影响,但基于大模型的AI应用正在走向多样化。
昆仑万维通过布局基座大模型和AI业务矩阵来应对这一趋势,并推出Skyo实时语音对话助手来抢占市场。
关键观点5: 未来昆仑万维将继续发力多模态AI应用,形成开箱即用的AI应用。
昆仑万维将不断深拓大模型能力释放出口,并加快实现通用人工智能的步伐。
文章预览
机器之心原创 编辑:杜伟、大盘鸡 算起来,距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间,AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。 不过,由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难,因此这个赛道的玩家并不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。 如今,这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能,并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能,并于近日支持 iOS 用户与该语音助手交流。 与此同时,国内一些厂商陆续推出了类似的实时语音对话大模型及应用,比如智谱、科大讯飞等,填补了一些空白。如今, 这个赛道又迎来了一个有实力的新玩家 —
………………………………